作者 | 杨依婷 刘伊伦

编辑 | 包永刚

“只能靠新的技巧路径。”赵占祥给出了他的谜底。

2025年12月13日,GAIR 2025「AI 算力新十年」专场在深圳·博林天瑞喜来登酒店正式启幕。

作为国内前沿技巧与家当变革的重要风向标,GAIR大年夜会历经七届积淀,见证并推动了中国 AI 家当从算法冲破、硬件迭代,到贸易落地的完全过程。本届论坛直面智能体系的底层核心——算力,从架构、生态、对象链到家当化落地,探寻将来十年的关键变量。

上午场以「谁是下一个寒武纪」为主题,六位来自产、学、研、投等多个维度的嘉宾依次登台,以不合视角揭示国产算力的近况与将来——这不仅是在探寻一家明星企业,更是在追问:

在算力成为基本举措措施的时代,毕竟什么样的技巧路径、生态计谋和贸易逻辑,可以或许穿越周期,占据将来价值链的顶端?

从最底层的芯片架构哲学,到最顶层的应用落地挑衅,一幅更立体、更清楚、也更具偏向感的图景,正在这场大年夜会中渐渐展开。

深圳理工大年夜学算力微电子学院院长唐志敏:经由过程软件定义算力,才能打破芯片技巧壁垒

AI算力新十年:技巧改革、生态协同与贸易闭环,共探“下一个寒武纪”之路 | GAIR 2025

首位登场演讲的嘉宾是深圳理工大年夜学算力微电子学院院长,龙芯 CPU、海光 CPU 开创人唐志敏。深耕微电子与算力范畴三十余载,唐志敏院长亲历了中国自立芯片从无到有、从弱到强的攻坚过程,更在算力芯片(XPU)的体系构造、软件生态与家当成长范畴有着深挚积淀,对于算力时代下芯片技巧冲破瓶颈、家当生态构建难点,有着独到且深刻的洞察。

唐志敏院长在大年夜会上带来了关于《XPU的将来——软件定义成败》的主题演讲,从算力时代XPU成长的核肉痛点切入,体系分析软件生态对算力芯片家当的决定性感化。

“我们不仅创造了‘算力’,还为它付与了国际表达——computility。”唐志敏开篇点明,算力正在向“水、电般的公共事业”进化。他进一步延长,跟着生成式AI的爆发,算力衍生出“训力”(快速练习大年夜模型的才能)与“推力”(基于大年夜模型输出成果的才能),甚至滑稽瞻望:“将来会不会出现‘演力’,直接把金庸小说变成电视剧?”这些鲜活的概念,既是技巧趋势的提炼,更传递出中国科技界对定义将来的主动思虑。

“当前算力芯片的成长,像在爬一座越来越陡峭的山,技巧迭代速度却越来越慢。”唐志敏以形象的比方指出核心抵触:一方面,摩尔定律放缓导致CPU等传统处理器成长受限;另一方面,生成式AI对算力的需求呈指数级增长。

为应对这一抵触,学术界与工业界正推动“异构计算”(CPU+XPU),但新问题随之而来——“我们有了很多种乐器,却没有同一的乐谱”,编程复杂度激增、软件兼容性差成为新瓶颈。

“生态是绕不开的命题。”唐志敏以数据佐证:X86架构历经四五十年沉淀,其软件生态壁垒极高,ARM虽在手机范畴称雄,却在办事器市场屡屡碰鼻;RISC-V虽被视为“破局者”,但贸易化之路同样艰苦。

在国产AI推理芯片方面,罗忆提出三个成长偏向:软件生态兼容,以均衡算法迭代与算力应用率;冲破存储技巧瓶颈,支撑3D memory技巧;异构计算与优化性价比,目标在将来三到五年内让百万Token成本降至1元以内。

唐志敏强调,当前算力机能冲破需跨学科交叉与软件深度优化双轮驱动。他以Linpack测试为例,指出应用软件机能晋升难度远超硬件迭代,经由过程软硬件协同优化,在现有制程限制下实现算力效能最大年夜化。“中国半导体受全球趋势及制程限制,必须经由过程软件定义算力,打破传统软硬件隔阂。”

同时,分布式 Profiling 体系供给从轻量级及时洞察到全链路深度分析的才能,支撑持续机能调优。

在架构立异层面,唐志敏明白否决指令体系碎片化:"现有指令体系足以支撑架构立异,RISC-V应成为家当同一标准。"他认为,计算芯片家当正出现螺旋式成长,将来将回归融合异构特点的CPU中间化架构,而RISC-V的包涵性可有效整合CPU、GPU及AI处理器特点,经由过程开源体系冲破生态壁垒。

“套用三国定律来懂得芯片生态,就是分久必合、合久必分,以前是以CPU为中间,如今就是去中间化的异构计算,CPU和XPU结合起来,但也会见临很多问题,我们欲望在未往返归到以CPU为中间的大年夜一统,总体就说一个否定之否定的过程。”唐志敏院长最后总结称。

刘方明传授:国产算力驱动大年夜模型需破解体系化挑衅,生态应从“蛮横发展”走向集约与开放

AI算力新十年:技巧改革、生态协同与贸易闭环,共探“下一个寒武纪”之路 | GAIR 2025

面向AI大年夜模型和智能体鼓起的机会和挑衅,第二位演讲嘉宾刘方明传授作了题为《国产算力驱动的大年夜模型体系化挑衅:全生命周期对象链与示范应用》的主题申报。

起首,刘方明传授分析了当前大年夜模型的成长趋势。他指出,当前算力中间和芯片等AI Infrastructure须要智算应用驱动,全球范围内大年夜模型数量和智能体应用已呈爆发式增长。

更进一步,赵占祥直言:“光电合封,是下一代AI算力的基石。”能以数量级优势晋升集成度、降低功耗,是冲破现有电气互联瓶颈的关键偏向。

但他同时不雅察到一种新动向:“跟着DeepSeek的推出,全球模型有从‘百模大年夜战’向‘十模争锋’的收敛趋势。”

针对国内大年夜模型成长生态,他指出当前仍面对“蛮横发展”带来的多重挑衅:国产模型才能存在差距、开源率低、对象链缺乏体系化、评测标准不同一以及价值对齐合规安然仍需技巧保障。

他进一步介绍了鹏城实验室作为国度实验室的独特定位——“保底线”,致力于在极端情况下保障国产算力主权和模型的自立可控。

“如今模型正逐渐走向集约化路线,不是只比谁范围大年夜、暴力出事业了,而是看谁能用起码的数据、起码的算力、起码的能耗做出好用的模型。”刘方明尤其强调了范式的改变。

鹏城实验室在宣布了2000亿参数的大年夜说话模型后,又推出了33B和2B参数的中小尺寸模型,并将2B参数模型全过程开源,包含所稀有据和数据配比、权重和练习环节,便应用户复现和应用。

他特别强调指令体系的重要性:“英特尔持续向X86架构中添加新指令,恰是生态竞争的关键动作。”谈及自立立异案例,他举例:“我们在研发海光CPU时,阿里云为何优先选择英特尔?因为软件优化的积聚,才是用户选择的核心。”

最后,他重申了“用乃至善”的理念:“好的模型、算力、芯片、硬件是靠用出来的。”今朝,鹏城实验室正与气候、金融、文博、生态情况、智能制造等行业合作,推动大年夜模型在典范场景中的示范应用,以实践驱动国产算力与大年夜模型全生命周期体系的成熟。

燧原科技结合开创人兼首席生态官李星宇:国产算力行业将迎来镌汰赛,软件生态是关键胜负手

AI算力新十年:技巧改革、生态协同与贸易闭环,共探“下一个寒武纪”之路 | GAIR 2025

燧原科技结合开创人兼首席生态官、芯片行业资深专家李星宇,在大年夜会上带来题为《时不我待,破局国产AI算力技巧生态》的主题演讲。

作为国产AI算力范畴的深耕者与实践者,李星宇亲历了国产算力芯片从技巧攻坚到贸易化落地的全过程,在算力硬件立异、软件生态构建与家当场景融合等范畴有着丰富经验。

李星宇抛出一组关键数据:“本年全球算力投资本钱支出估计将跨越4600亿美金,跨越美国登月筹划的总投入。”他解释,当前全球顶级互联网公司在AI范畴的大年夜部分本钱支出(CapEx)用于算力采购,中国市场同样如斯,BAT等互联网大年夜厂占据了68%以上的份额。

从贸易化应用看,AI正加快渗入渗出至AI编程、数字IP内容范畴。李星宇提到,“AIGC在数字人、游戏、影视行业本年国内产值估计超1000亿,全球数字内容生成市场范围已近500亿美金,加上AI编程范畴、虚拟交互这三大年夜场景构成了当前AI贸易化的主疆场。”

而在这三大年夜主疆场背后,GPU作为核默算力载体,其竞争的胜负手早已超出硬件机能本身,延长至生态层面。“软件生态是GPU硬件行业的胜负手。”

谈及技巧演进,李星宇指出,软硬结合,AI算法需求驱动计算架构持续立异,数据格局的立异和优化带来了算力机能的晋升,从FP32到FP16再到FP8和FP4,每一次迭代都须要硬件架构的支撑和软件生态的集成优化。

硬件层面,技巧栈的范围从单芯片加快向超大年夜范围体系工程演进,在单芯片架构层面,须要CPU和XPU全部异构体系的软硬件协同优化,综合标量、向量和张量计算,更高效力支撑算法的工程立异,如PD分别、MLA、MTP等。软件层面,更须要深度拥抱开源软件生态,如DeepSeek,Qwen,ChatGLM3等,借助生态的力量充分释放硬件的算力。集群层面,要解决超高速互联技巧、体系分级存储、以及液冷等挑衅。

针对GPGPU成长近况,唐志敏警示部分产品已偏离GPU本质功能。他以生成式AI场景为例,解释图形衬着、着色等基本才能的重要性:"将小说转化为电视剧,既须要GPT的内容生成,也依附GPU的视觉出现。" 同时,他分析体系厂商自研芯片海潮时指出,苹果的成功在于经由过程自研CPU实现产品增值与全栈软件掌控,而"未能晋升产品溢价的自研芯片终将面对市场挑衅"。

“国产算力行业将迎来镌汰赛。”李星宇直言,因为体系级产品研发需海量资金投入,本年国内算力企业正全力冲击本钱市场,估计将来一年A股和港股至少6家公司冲刺上市。资金和技巧贮备不足、生态构造脆弱的企业或将加快出局。得益于丰富的贸易化应用处景,燧原的产品迭代获得了坚实支撑,公平易近级爆款应用已经用到了燧原的算力。

“破局国产算力技巧生态,是一场技巧、贸易与人才的长跑”,李星宇最后总结道,拥抱开源,构建开放、同一的技巧体系,避免“烟囱式”成长、凝集生态合力;绑定场景,与“AI+场景”深度绑定,以贸易化场景打磨技巧栈;培养人才,从社区和高校泉源入手,将国产AI算力技巧栈融入人才培养体系。

摩尔线程副总裁王华:万卡集群+智能对象链,破解大年夜模型练习效力与稳定性难题

AI算力新十年:技巧改革、生态协同与贸易闭环,共探“下一个寒武纪”之路 | GAIR 2025

随后,摩尔线程副总裁王华作了题为《基于国产GPU集群的大年夜范围练习实践》的主题演讲,体系介绍了大年夜模型练习当前面对的挑衅、摩尔线程的软件栈指出以及晋升练习效力的关键技巧与对象。

王华开宗明义地介绍了万卡甚至更大年夜范围的集群的须要性。他以Kimi、GPT-5、Grok等模型为例,揭示其计算量已跨越了的10²⁴ FLOPs量级。在此背景下,集群范围成为紧缩练习时光的核心变量。

一组比较数据直不雅而震动:对于某个特定大年夜模型,千卡集群需耗时173天,而在万卡集群上,即便模型浮点运算应用率(MFU)会从40%降至30%,练习时光也能被大年夜幅紧缩至23天。

“对于大年夜模型来说,练习异常关键。如今模型的竞争异常激烈,一些算法实验欲望快速验证后果,而完成练习的时光越短越好,最好不要跨越1个月。”王华强调道。

那么,若何体系性地驾驭这个宏大年夜而复杂的生命周期?王华随后分享了摩尔线程的“全栈应对之道”。

在软件生态上,摩尔线程供给了从Model Studio一站式平台、深度融合的MT-MegatronLM与DeepSpeed框架、适配国产GPU的Torch-MUSA与MT-TransformerEngine,到底层MUSA计算库及KuaE集群平台的全栈支撑。

此外,摩尔线程还构建了一套贯穿练习前、中、后期的智能对象体系,旨在将弗成控的风险转化为可治理、可主动恢复的惯例操作。

在练习启动前,SimuMax 支撑练习资本筹划与时光估算,并可验证优化后果;起飞检查对计算、收集、存储及软件情况进行周全诊断,保障集群健康。

练习过程中,慢节点检测体系及时定位硬件或通信异常;针对隐蔽的静默数据缺点,经由过程硬件监控与重运行(Re-Run)等办法防备;Hang问题可经由过程定位泉源节点并主动重启恢复;面对 Inf/NaN 异常,体系可主动检测并经由过程重运行或改换节点处理。

瞻望将来,摩尔线程以“为美好世界加快”为愿景,正致力于经由过程全功能GPU与全栈软件才能的深度融合,为这场AI算力的极限挑衅供给坚实、高效且智能的基本举措措施。

云天励飞技巧副总裁罗忆:2025年是AI芯片消费关键拐点,推理芯片消费或将跨越练习芯片

而中国的表示令全球注目。李星宇强调,“中国已成为大年夜模型范畴的开源生态引导者。HuggingFace Top10模型中,9个来自中国公司。更关键的是,在实际贸易化场景中,中国开源模型生成的Token量已跨越全球其他开源模型总和。

AI算力新十年:技巧改革、生态协同与贸易闭环,共探“下一个寒武纪”之路 | GAIR 2025

云天励飞技巧副总裁罗忆,在大年夜会上带来题为《芯智AI筑基,普惠点亮将来》的主题演讲。

作为深耕AI芯片与智能生态范畴的资深从业者,罗忆见证了人工智能从技巧冲破到范围化应用的演进过程,在算力芯片架构立异、AI推理技巧路线摸索与家当生态落地等方面有着深挚积聚。

罗忆指出,AI家当正从“模型练习”向“推理应用”加快切换。2025年,AI芯片消费将迎来重要转折,推理芯片消费量或将跨越练习芯片。这一断定源于企业端推理需求的爆发:谷歌日调用量已达43万亿Token,字节跳动近期或冲破40万亿,云厂商如谷歌、亚马逊等已加快自研推理芯片以应对需求。

针对大年夜模型应用的“经济学困境”,罗忆强调成本优化是关键。当前万亿参数模型面对算力、带宽等成本的“几何级增长”,需经由过程稀少化、蒸馏化、量化优化等技巧降低门槛,推动AI从“高成本摸索”走向“范围化普惠”。

谈及中国AI成长路径,罗忆总结为“数据飞轮”模式: 应用临盆数据-数据练习算法-算法定义芯片-芯片赋能范围化应用 。差别于美国经由过程政策强推技巧冲破的路径,中国以“人工智能+”筹划为核心,依托千行百业的场景落地反哺技巧迭代,慢慢缩短与美国在AI家当链上的差距。

云天励飞作为国产AI芯片代表,已完成芯片架构进级,实现全流程国产工艺转型,构建起覆盖端边云的产品矩阵。

IO本钱开创合股人赵占祥:大年夜模型算力突围需摒弃“单点追赶”,以体系级架构与工艺立异开辟多元化中国路径

AI算力新十年:技巧改革、生态协同与贸易闭环,共探“下一个寒武纪”之路 | GAIR 2025

论坛的最后一位嘉宾,是来自IO本钱的开创合股人赵占祥,他专注于硬科技与半导体范畴的早期及成经久投资,会上揭橥了题为《大年夜模型时代,国产AI芯片破局的几种新技巧路线》 的演讲。

赵占祥在演讲伊始,就将话题聚焦于当前的核心制约——在美国对华出口管束赓续进级,对准先辈计算与先辈制造家当链的背景下,将来我们如何在工艺受限的情况下跨越英伟达?

面对从先辈制程、HBM到先辈封装的周全限制,国内已出现出一批从架构改革、工艺融合、体系优化入手的立异企业,其路径出现出多元化特点。赵占祥从云端AI芯片、边沿AI芯片、端侧AI芯片、loT末尾AI芯片以及先辈封装等不合偏向,分享了不合企业的立异路线。

在数据中间的AI芯片,部分企业摒弃了对单卡算力的盲目寻求,转而构建更高效的体系。例如,TPU路线经由过程打造大年夜范围超节点、省去交换机和HBM,在集群层面寻求更高性价比;以太网互联网筹划可以做到百万卡的分布式集群,许可丢包,可扩大性更高。

在边沿AI芯片偏向,跟着桌面级AI应用(如AI NAS、AI摄像头)的井喷,专为这些场景设计的LPU架构等应运而生,它们经由过程3D DRAM堆叠等技巧,在有限功耗和成本下实现惊人的内存带宽。

在端侧AI芯片偏向,重要针敌手机以及各类智算终端,存算一体与近存计算成为关键。无论是将计算单位嵌入存储芯片的3D-CIM架构,照样在LPDDR内存中集成处理才能的PIM筹划,目标都是在手机有限的面积和功耗预算内,流畅运行数10亿参数的大年夜模型。

“3D DRAM,要靠先辈封装”。赵占祥强调,大年夜算力芯片正在向三维架构变革,这使得先辈封装及其检测设备不再是副角,而是决定机能和良率的核心。

“中国真正强的是,我们可以把应用做好,有工程师红利,我们在各个范畴都有不合的定制化筹划和立异的解决路线。”赵占祥的洞察揭示了此次芯片立异海潮的驱动力——不是单一技巧的颠覆,而是在广泛的应用需求牵引下,经由过程多条技巧路径的并进,体系性构建自立的AI算力生态。

“谁是下一个寒武纪?”——这场思辨在评论辩论中暂告段落,谜底并未指向某个具体名字,却清楚揭示出:追问本身,远比谜底更重要。

本次论坛的意义,正在于将这一具体追问,拓展为对家当将来的体系性审思——从技巧路径的决定、生态模式的构建,到贸易逻辑的沉淀。

寻找的过程,等于建构的过程。

我们或许尚未见到最终的引领者,却已在思辨中凝集了共鸣,辨清楚明了前行的偏向与必须夯实的基石。

这份对前沿的摸索与对立异的笃行,恰是驱动家当持续进化的根本动力。

我们等待,以此论坛为新的起点,产学研投各界能凝集更广泛的共鸣,形成更强大年夜的合力。

智算新时代的帷幕已然拉开,关于技巧路径、家当格局与将来定义的商量仍将延续,让我们怀抱这份等待,在将来征程中,再次相聚,共见分晓。

雷峰网("大众,"号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部