2025年12月12-13日,第八届GAIR全球人工智能与机械人大年夜会在深圳·博林天瑞喜来登酒店正式启幕。

作为AI 产学研投界的标杆嘉会,GAIR自2016年创办以来,始终逝世守“传承+立异”内核,始终致力于连接技巧前沿与家当实践。

在人工智能慢慢成为国度竞争核心变量的当下,算力正以前所未有的速度重塑技巧路径与家当构造。13日举办的「AI 算力新十年」专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到家当化落地展开体系评论辩论,试图为将来十年的中国AI家当,厘清关键变量与成长偏向。

GAIR 2025「AI 算力新十年」专场上,云天励飞副总裁罗忆揭橥了题为《芯智AI筑基,普惠点亮将来》的主题演讲,体系阐述了他对国产芯片路径和AI普惠化的核心断定。

云天励飞罗忆:推理超出练习,国产算力的真正疆场在生态与成本丨GAIR 2025

某种意义上,云天励飞本身,就是一段中国AI家当的微不雅缩影。

云天励飞副总裁罗忆,恰是这段过程的重要介入者与推动者之一。早年,他须要一次次向客户和家当定义明“人工智能毕竟能解决什么问题”;而今天,在推理成本、算力构造与生态壁垒成为行业核心议题的背景下,他思虑的重心,已转向若何让AI真正“用得起、用得久、用得广”。

与很多聚焦单点技巧冲破的叙事不合,罗忆的视角始终锚定在一个更实际、也更具家当意义的闭环之中:应用临盆数据,数据练习算法,算法定义芯片,芯片赋能应用,最终推动全部AI生态的正向飞轮。在他看来,AI的竞争不只产生在实验室和算力榜单上,更产生在真实施业、真实成本与真实范围化落地的场景之中。

演讲停止后,雷峰网("大众,"号:雷峰网)与罗忆就演讲中说起的“生态融入”、“AI惠普”等关键议题,进行了更深刻的商量。以下是雷峰网在不改原意的基本上,根据对话过程做的整顿与编辑:

对话环节

中国也有一系列政策的出台,最集中的其实是本年年中推出的“人工智能+”筹划,这个政策极具中国特点,或者说异常相符中国的路径。

问: 您在演讲中回想了科技史的成长,云天的AI芯片也跨越了CNN到Transformer,您认为两个时代对于芯片需求最大年夜的不合是什么?

答:从云天选择NPU路线一路走来,如今面对一个最显性的变更:Scaling Law驱动下,技巧瓶颈开端螺旋式地出现。最初是算力瓶颈,随后发明本质是内存容量瓶颈,接着是带宽瓶颈,再后来瓶颈从芯片内部扩大到办事器之间,这才催生了“超节点”这类体系级筹划。这反应出一个根本改变:今天的芯片公司早已不止于设计芯片,必须供给全栈的体系工程才能。

假如类比工业革命,练习更像是“发电”,而推理更像是“用电”。

其次是市场加快度带来的生态压力。从客岁到本年,市场推理需求增长近百倍,模型迭代周期从以前的数月缩短至如今几乎每周更新。曾经做NPU可以“慢工出细活”,花三个月将算法优化到极致;但如今三个月时光窗口早已封闭,新模型已迭代数轮。是以,我们必须主动兼容并融入CUDA在内的主流开产生态,不然客户的迁徙与适配成本会明显上升,贸易化节拍也会被拉慢。本质上是技巧冲破带动家当化过程极速紧缩,以前半年一年碰到一次的瓶颈,如今可能三个月就碰到,推动技巧螺旋式进步。

从中国路径上讲,我们肯定照样两条腿走路。国产生态,不管是RISC-V照样像昇腾如许的国产万卡生态,它还得本身要慢慢走。别的一方面,也必须融入高速迭代的CUDA生态,这个逃不掉落。

问: 在Transformer时代,要让推理可以或许更成功,你感到比较关键的身分会是什么?

问:您讲到中国更强调普惠AI的应用渗入渗出,那您认为当下AI推理普及面对的最大年夜挑衅是什么?降低单位token成本吗?

直到2025年1月初DeepSeek-R1的宣布,这一趋势出现了新的变更。

答: 从我们的角度,总体上来讲走向最终成功是要融入生态或者是拥抱生态。然则作为一个追赶者,进来之后必须得有本身的价值,要有一技之长,要有一个特别长的长板,然后才有时光换空间,去慢慢弥补本身的短板,慢慢融入到生态。

答: 我认为显然就是成本问题。大年夜家欲望AI越来越精准来达到行业应用的请求,以前发明再尽力也做不到、如今就发明其实经由过程尽力,经由过程长思虑、长高低文的懂得、带入私域的常识是能做到的、但价值很大年夜,那么怎么选择?所今后面就是降本的问题了。

对中国来说,最重要的工作其实是经由过程应用的渗入渗出以及千行百业的落地,去推动或反哺全部AI的繁华。

问: 您认为从芯片公司的角度,要在推理市场构建护城河的关键是什么?

答: 融入生态护城河。如今很多圈子都是“互为生态”的格局,每种核心技巧都有它的实用方高低游。狭义来说,生态其实就是本身的高低游,但如今技巧栈其实太深、太广,每一个细分范畴都在形成本身的生态圈。

比如比来我们也介入了中移动提出的OISA体系,合营冲破万亿级MoE大年夜模型推理集群Scale up的瓶颈,环绕 AI 芯片互联、超节点等体系级偏向与家当伙伴合营攻关,核心目标是晋升国产 AI 芯片在范围化推理(包含 MoE 等复杂负载)场景下的互联效力与互通性,推动集群 Scale-up 才能演进。

今后假如要把“超节点”真正做成可复制、可范围化的推理基本举措措施,除了芯片本身,互联协定、交换与收集、体系软件与调剂等关键环节都必须做到协同兼容。是以,我们后续也持续介入国产技巧栈与关键标准生态的共建,让产品更顺畅地进入主流体系形态与客户工程体系。

问: 对于实现生成式AI的普惠,云天在将来1-2年内的目标是什么?经久的策略是什么?

答: 我认为如今的话,一个是修好内功,技巧上你起重要有一技之长,环绕推理落地最关键的指标,把一项或几项核心才能做到足够凸起、可复用、可交付——让客户在成本、能效、时延或工程化效力上能明白感知到价值。第二是用更开放的方法进入头部生态与头部客户体系,一方面积极介入主流技巧栈与家当生态合作,降低适配门槛;另一方面也会经由过程多种合作形态(包含结合立异、结合解决筹划、家当协一致)与头部客户建立更深度的验证与共创关系,尽快形成可复制的标杆与范围化路径。对我们来讲,策略是先辈圈子,先辈头部的圈子,在真实应用中慢慢长出本身的生态。

演讲全文

以下是罗忆演讲的出色内容,雷峰网作了不改变原意的整顿与编辑:

大年夜家好,我是来自云天励飞的罗忆,重要负责推理芯片相干的生态扶植工作。

云天励飞成立于2014年,是一家深圳本土的人工智能芯片企业。

从汗青视角看,中国在早期技巧体系上曾经久领先全球,但在第一、第二、第三次工业革射中,一些关键临盆力对象和核心技巧的冲破,拉开了不合国度和地区之间的差距。

进入AI时代,今天我们可以看到中美之间的竞争态势较为明显。美国在人才、资金、先辈制程方面要卡中国的脖子,但同时,中国在以前多年的技巧积聚下,与美国在全部AI家当链范畴的差距是在慢慢缩短的。

固然今朝来看,还无法实现周全的国产替代,但今天家当界的同仁们,都在屡屡艰辛地实践,老是要有一些国度实验室和大年夜企业要去攻关核心技巧,守住家当成长的底线。

拐点已至:推理超出练习,国产算力占比过半

云天励飞罗忆:推理超出练习,国产算力的真正疆场在生态与成本丨GAIR 2025

从全部技巧成长的海潮来看,2014年至2022年,AI家当整体迭代节拍相对稳定,平日以三个月到半年为周期。

2022岁尾被广泛认为是一个重要拐点——大年夜模型时代正式到来,行业整体沿着Scaling Law成长,经由过程更大年夜算力、更多半据和更大年夜参数范围,赓续晋升模型才能,使得它可以或许更泛化地进行办事。

从2023岁首年代大年夜模型鼓起开端,技巧和产品的迭代速度明显加快。无论是做底层技巧照样应用层的企业,广泛感触感染到进修和适应的压力,全部家当的迭代节拍,已经进入以“周”为标准的迭代,甚至我们说,中美之间的迭代,可能只是5小时~8小时的迭代,你方唱罢我登场。

DeepSeek的核心意义主如果两件事。

起首,缩短了开源模型与闭源模型之间的时光差;其次,它只用了二十分之一的硬件成本,复现类似闭源的后果。包含千问的一系列蒸馏模式,也解释在真实施业应用中,万亿参数、千亿参数模型在成本上难以经久遭受。

从本质上看,模型参数范围越大年夜,单位推理成本就越高。每一次推理所需的算力、带宽、KV Cache都邑呈几何级数增长。

在家当应用中,我们实践出一套根本逻辑:

练习阶段可以持续摸索模型才能上限

应用阶段必须经由过程稀少化、蒸馏、量化、数据格局优化等方法,赓续降低推理成本

只有如许,AI才能真正实现普惠,才能在千行百业中范围化落地。

练习属于技巧皇冠,须要少数头部企业解决大年夜范围集群问题;而真正进入行业和社会运行体系的,是推理才能,须要云、边、端多层次的芯片形态支撑。

据我们不雅察,本年至少存在两个重要拐点。

第一,推理算力消费将初次跨越练习。

云天励飞罗忆:推理超出练习,国产算力的真正疆场在生态与成本丨GAIR 2025

黄仁勋在本年的一次演讲中提到,他认为推动英伟达股价上升的三条曲线中的前两条,第一条是预练习,第二条是后练习,如今新的一条scaling实际就是Long Thinking。

从家当数据来看,推理Token消费正在快速增长。2023年ChatBot时代以快问快答为主,而如今已经进入长高低文、联网搜刮和深度思虑阶段,Token消费明显增长。

在国产算力加快突围、推理逐渐超出练习成为家当主疆场的当下,这种来自一线实践者的断定,尤显名贵。它试图答复的,并非“可否对标某一家巨擘”,而是一个更根本的问题:在高度封闭、生态壁垒森严的全球算力竞争格局中,国产芯片毕竟应当若何找到本身的生计空间与增长路径。

2024年的数据显示,国内企业Token消费量同比增长跨越100倍,谷歌的日Token调用量已达到约43万亿,这个数据已经滞后了,今朝仍在持续增长。

以CUDA生态为代表的GPGPU重要解决大年夜集群练习问题;

2014年公司创建时,人工智能尚未像今天如许被广泛认为是第四次工业革命的核心技巧,我们在较长时光里须要赓续向客户和家当界证实人工智能的价值。但在这个过程中,云天励飞逐渐积聚了端到端的全栈技巧才能。

我记得,据6月份国度数据局颁布的数据,中国互联网全部日Token调用量是30万亿,到9月份,字节跳动一家就已经达到了30万亿/天。我们内部有段时光跟字节懂得交换,据说比来可能已经冲破了40万亿/天,这个增速其实是异常惊人,并且这个速度涓滴没有放缓的意思。

第二,估计到岁尾,国内AI芯片出货/安排构造中,国产AI芯片占比有较大年夜概率跨越50%,整体份额跨越非国产高端GPU。

中国路径:以应用落地,反哺AI生态

AI的成长上,我们可以看到美国从“AI行动筹划”,到比来的“创世纪筹划”,持续从国度层面推动AI成长,包含如今的美股,根本都是靠AI概念的科技企业在支撑股价,科技类的已经达到了50%以上。而中国股市上,科技类可能占比还不到10%。

从2024年Q3到本年9月,北美四大年夜云厂商2025本钱开支增长了83.5%,像谷歌、亚马逊这些头部云厂商纷纷自研芯片以争夺成本优势。

我们一向坚信一个“数据飞轮”,应用临盆数据,数据练习算法,算法定义芯片,芯片的范围化应用推动全部家当的成长。

中国的特点是有一部分头部的企业,包含AI练习的厂商,用更大年夜范围的练习集群去追赶与美国头部闭源模型的差距,甚至经由过程工程化的方法,一方面,是为了降低练习成本,更进一步,是为了降低将来的推理成本。

并且,中国有异常好的基本举措措施,在基本数字化、行业应用、应用人群以及应用热忱上都具备明显优势,这个渗入渗出率也会进一步推动以AI推理芯片为核心的本钱投入的增长。

是以,在中美的动态竞争中,两边在政策导向、核心目标与技巧路线上存在必定差别:美国更侧重于占据技巧制高点,并将其作为经济增长的核心锚点;而中国的核心在于加快应用市场成长,特别是晋升AI推理芯片的国产化替代速度。

同时,我认为刚才几位分享嘉宾都讲到一个异常重要的工作,当前国内芯片家当最大年夜的挑衅在于软件与生态扶植。在这方面,我们也有本身的构造与思虑。

比来在喷鼻港的一次峰会上,我们的董事长跟AI前驱Hinton(杰弗里·辛顿)有过一次对话,Hinton一向担心,AI的成长速度过快,而响应的伦理与安然规范却未能同步跟上。别的他还提到,“只致力于让AI更聪慧而不推敲应用,这是个大年夜缺点。”这个应用,包含生态、伦理、安然、监管等一系列问题。

对我们而言,不仅要在技巧上赓续精进,更要寻求普惠与向善的目标,让AI真正以可遭受的成本解决临盆力问题,为各行各业创造价值。

GPNPU=生态兼容 + 能效特长 + 存储冲破

在推理上,始终存在“机能-成本-精度”三角衡量挑衅的关系。

云天励飞自进入该赛道起,便从小模型时代出发,基于自研NPU指令集,保持走AI普惠与极致性价比的路线,经由过程算法与算力的一体化设计,在边沿侧及城市各类场景中深化应用。

跟着模型范围扩大年夜与应用范式多样化,技巧路线大年夜致分为三类:

NPU则持续在极致能效与功耗上发挥优势;

针对云端推理,行业共鸣正趋势于GPNPU。

我们则从专用架构走向更通用的设计。两条技巧路线正在赓续重叠与融合。

国内云端大年夜算力推理芯片的技巧路线选择,我们列了一个公式:

GPNPU=GPGPU+NPU+3DM

昔时夜多半人还在评论辩论人工智能“是否有效”的2014年,一家中国公司已经选择了一条更难、也更远的路——同时押注算法与芯片,试图从底层构建属于本身的AI技巧体系。此后十余年,从深度进修的早期摸索,到大年夜模型囊括全球,再到算力成为国度级命题,这家公司几乎完全经历了中国人工智能家当从萌芽、加快到分化竞争的全过程。

其核心义务是:

软件生态尽可能兼容CUDA。

保持NPU设计的高效性与模型亲和性。

确保芯片在家当化应用中实现高算力应用率。

此外,在大年夜模型推理范围化落地(尤其解码阶段)中,机能瓶颈往往不再只表如今算力本身,而是更凸起地表如今显存容量、互联带宽以及节点间互联带宽等体系束缚上。在高端存储如HBM供给受限的背景下,我们必须寻求更多解决筹划。是以,我们全力支撑3D Memory技巧路线,这是在国产化、大年夜容量、高带宽偏向实现冲破的关键,只有更多厂商支撑,该技巧的家当化与贸易化成熟度才能加快。

云天励飞罗忆:推理超出练习,国产算力的真正疆场在生态与成本丨GAIR 2025

将来,云端AI基本举措措施必将走向异构化与高性价比偏向。这不仅表如今单个模型的计算与访存分别,也表如今需用不合范围的模型办事不合场景需求。

如同一个公司不会全部雇佣博士生,合理的性价比设备才能实现高效产出。其核心公式可简化为:(本钱开支CAPEX + 营运成本OPEX)÷(加快卡吞吐量 × 设备应用率)。

很重要的是,如今的大年夜模型推理为什么要做PD分别?因为P和D阶段完全不一样,P阶段是计算密集型,而D阶段绝大年夜部分时刻,算力在等数据搬运。

云天励飞罗忆:推理超出练习,国产算力的真正疆场在生态与成本丨GAIR 2025

若何更高效地解决这个问题?我们经由过程数据格局优化、模型量化等一系列算法技巧,在确保模型精度的前提下,明显晋升了计算与数据搬运的实际效力,从而持续降低了单位Token的推理成本。

云天励飞罗忆:推理超出练习,国产算力的真正疆场在生态与成本丨GAIR 2025

今朝,国内云厂商的Token报价多以百万为单位,成本广泛在10元以上,无办事程度协定保障的模型调用成本甚至跨越20元。我们认为,将来三到五年,百万Token成本必须降至1元人平易近币以内,才能支撑“人工智能+”筹划所请求的渗入渗出率目标。

最后,简单讲一下云天励飞,公司自2024年创建以来,始终秉持“算法+芯片”双轮驱动的技巧路径,今朝芯片已迭代至第四代。第五代芯片将周全转向GPNPU架构,并在原有自立设计的NPU指令集及多年行业技巧积聚基本上,向通用推理偏向演进。

2020年,公司周全转向国内工艺体系,并成为国内最早实现D2D Chiplet技巧的企业之一,该工艺是冲破算力制约的关键路径,也是国产算力芯片成长的合营偏向。

在存储技巧方面,我们认为3DM是国产工艺将来实现冲破的重要偏向。尽管今朝可采取海外HBM3e甚至后续产品,但其家当链与供给链仍存在较大年夜不肯定性,是以我们保持周全推动国产化,致力于成长3DM等冲破性工艺,并等待更多芯片企业参加,合营推动家当成熟。

在本代商用芯片中,我们经由过程一次流片即可封装出实用于端、边、云等多种场景的系列芯片,算力覆盖8T、16T、64T直至128T,个中最高规格的Edge200芯片可完全支撑深度推理义务。

从公司愿景出发,云天励飞致力于周全拥抱人工智能海潮。无论是在智能硬件、智能摄像头、具身智能、人形机械人照样云推理等范畴,我们均环绕“端边云”体系构造了三条芯片产品线:“深穹”面向云推理,“深界”专注于端侧NPU芯片,“深擎”则是面向人工智能的SoC芯片。我们等待基于国产工艺,周全推动AI技巧的落地与应用。

以上是我的分享,感谢大年夜家。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部