今朝相对做得好一些的,反而是一些软件相对简单的嵌入式场景,比如做存储的企业,把 RISC-V 用来做存储控制器。这类场景软件异常简单,确切能用,也用得不错。但一旦进入计算范畴RISC-V面对的问题就多了很多。

作者|包永刚
编辑|林觉平易近
但异构计算带来了编程、软件兼容性两大年夜难题:
2025年12月12-13日,第八届GAIR全球人工智能与机械人大年夜会在深圳·博林天瑞喜来登酒店正式启幕。
作为AI 产学研投界的标杆嘉会,GAIR自2016年创办以来,始终逝世守“传承+立异”内核,始终致力于连接技巧前沿与家当实践。
在人工智能慢慢成为国度竞争核心变量的当下,算力正以前所未有的速度重塑技巧路径与家当构造。13日举办的「AI 算力新十年」专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到家当化落地展开体系评论辩论,试图为将来十年的中国AI家当,厘清关键变量与成长偏向。
他强调,跟着生成式 AI 对算力需求的快速增长,单靠 CPU 已无法知足实际需求,异构计算(CPU+XPU)成为必定选择。但硬件本身并非决定身分,真正影响算力释放的,是软件与应用生态。他经由过程对x86、Arm和RISC-V的分析,指出身态惯性和软件兼容性在贸易化和技巧落地中起到决定性感化,生态成熟度往往比硬件机能更能决定芯片成败。
唐志敏也强调,软件定义一切,这不仅意味着应用开辟与机能优化,更决定了算力芯片的经久竞争力和家当格局。
在算力体系演进中,硬件是基本,但软件和生态才是真正的“决定身分”。无论是 CPU、GPU 照样将来的 XPU,控制和构建完全的软件生态,才能在高速增长的算力需求与复杂的技巧挑衅中立于不败之地。

以下为唐志敏师长教师的出色演讲内容,雷峰网("大众,"号:雷峰网)作了不改变原意的整顿与编辑:

从“算力”到 Computility:算力正在被从新定义
“算力”其实是中国人本身创造出来的一个词。以前在计算机范畴,更多讲的是performance(机能),而不是算力。中国人什么工作都爱好讲“力”,比如体力、臂力、脑力,如今又有了算力。
既然是我们本身创造的词,那怎么翻译成英文?有人翻成Computing Power,但这个词我认为不太好,听起来就很费电,如今的算力确切费电,但我们并不欲望算力特别“更费电”。
所以有计算所的师长教师创造了一个新词,叫 Computility,把Compute(计算)和Utility(设置)合在一路,我小我是比较认同这个说法的。我们欲望算力像水、电一样,成为一种基本举措措施。
实际上算力就是:在可接收的资本、可接收的时光内,完成某种计算义务的才能。
各类各样的计算芯片,是算力的基本。我本来是做高机能计算机体系构造,后来进入半导体行业,会发明处理器和其它很多芯片并不一样。处理器不是一个纯真的硬件,它最复杂的处地点于,要支撑运行异常复杂、范围巨大年夜的软件体系,所以出现了“软件定义一切”的概念,比如软件定义存储,软件定义收集,软件定义无线电。
所谓生态,就是能在处理器上运行的所有软件的总和,包含应用软件、操作体系、编译器、中心件、函数库和开辟对象。最终真正产生临盆力的,是应用软件,而不是芯片本身。
在算力这个概念之上,比来几年又出现了很多新的“力”。比如如今大年夜家讲得比较多的:
训力,就是快速练习出大年夜模型的才能;
推力,就是基于大年夜模型快速推理、生成成果的才能。
将来还可能会有什么力?我本身也做过一些畅想。如今的大年夜模型已经可以懂得说话,也可以生成视频,GPU 可以衬着高度逼真的图形。假如把这些才能结合起来,也许有一天,我们可以把小说直接“演”成电视剧。这种才能,本质上照样算力体系赓续演进的成果。
CPU 不克不及知足需求,异构计算成为必定选择
固然摩尔定律逐渐放缓,但算力需求,尤其是生成式人工智能对算力的需求,却在持续快速增长,并且增长速度远远跨越了制程和工艺所能带来的机能晋升。

在这种情况下,只靠CPU肯定不克不及知足对算力的需求。CPU的主频和整体架构,二十多年里并没有产生本质变更,所以我们只能经由过程CPU + XPU的方法,比如CPU+GPGPU,或者其他的PU,总称为XPU,和CPU形成异构计算架构,在通用性、机能、能耗和成本之间寻找均衡。
XPU 的本质:硬件只是资本,机能取决于软件
编程变得加倍艰苦;
深圳理工大年夜学算力微电子学院院长、龙芯 CPU 与海光 CPU 开创人唐志敏揭橥了题为《XPU的将来——软件决定成败》的主题演讲。
本来只在CPU上运行的法度榜样,如今要分为两部分,一部分仍在CPU上,另一部分放到XPU上运行。
从计算机体系构造的角度看,我习惯把架构分成三类。
第一类是比较激进的构造,重要靠硬件做动态优化。为了运行复杂应用,硬件要分析指令之间的并行性,典范代表就是传统 CPU。
第二类是比较保守的构造,硬件并不去做复杂分析,而是供给大年夜量运算部件和存储资本,至于这些资本怎么用,重要依附软件,比如GPU和各类XPU。
第三类是动静态优化相结合的构造。
XPU本质上属于保守型构造。硬件只负责把计算资本供给出来,并不包管机能必定能发挥出来。机能能不克不及出来,更多取决于软件、编译器和法度榜样员。
唐师长教师指出,算力不仅是硬件机能的表现,更是一种在资本与时光束缚下完成义务的才能体系。在这一背景下,训力、推力等新型算力才能正在慢慢形成,推动人工智能从说话懂得向多模态生成成长。
主动并行化这个偏向,学术界和工业界研究了几十年,后果始终有限。实际中,真正能把机能跑出来的,照样依附经验丰富的法度榜样员和成熟的软件体系。
也正因为如许,我一向强调,算力芯片真正面对的核心问题,不是硬件架构,而是应用生态。
生态惯性:x86、Arm与RISC-V的实际界线
在CPU范畴,x86生态经由四五十年的成长,已经有异常高的市场占领率和生态惯性。哪怕是英特尔本身,也很难去推动一个不兼容x86的体系。
根据Gartner给出的全球企业软件的情况,经由多年成长,x86软件市场越来越大年夜,基于x86软件的发卖收入是3000多亿美元。为x86开辟软件的费用,每年大年夜概是600亿美元。而全球办事器市场总的收入,大年夜概是800亿美元。也就是说,一年卖出800亿美元的办事器,为了开辟x86软件,每年要新增600亿美元。可见软件开辟须要消费大年夜量精力。
在手机范畴很成功的Arm也想要进入办事器范畴,可以看到一个又一个Arm架构办事器公司屡战屡败。他们的掉败有各类各样的原因,我认为Arm架构在办事器范畴要成功须要有两个原因:一个原因是控制全栈技巧的大年夜公司不再应用x86,这是Arm的机会,典范的比如苹果不消x86,本身控制软件栈可以切换。另一个原因是端云融合,手机上和云端都用Arm架构,如许手机上的应用比较轻易迁徙到云端,包含云游戏等,如许Arm在办事器市场才更轻易成功。
除了Arm,RISC-V也是一个大年夜家都在存眷的偏向,但RISC-V到底灵不灵?它的开放性确切带来了新的可能性,但开放和开源本身,并不主动等于成功,开放的CPU有很多,比如OpenRISC、OpenSPARC、OpenPower如今也开放了。
也有人说Arm太贵,用RISC-V可以省钱。但我之前做芯片公司的时刻,一向买Arm的IP授权,也没认为有多贵。若干年前,Arm一年的收入十几亿美元,如今Arm每年收入三四十亿美元,Arm收入的增长是在很多公司应用RISC-V的背景下,这从某个角度说清楚明了做RISC-V的公司须要反思。
还有人说RISC-V更合适做研究,因为可以随便修改。但我认为做研究用什么架构都可以,不必定要用RISC-V,用x86、Arm照样可以做研究,这不是来由。
RISC-V开放,很多人欲望用开源硬件去走一条类似开源软件的成长路径,但我一向认为,这条路并没有那么轻易。和开源软件比拟,开源硬件的难度要大年夜得多。
从实际情况看,如今全球的 RISC-V 都面对着贸易化的艰苦。我看到一条消息,Jim Keller——这个行业里做CPU架构的顶级人物——创办了一家做RISC-V的公司Tenstorrent,比来开端裁人了。包含Tenstorrent在内美国好几家公司做出了RISC-V芯片,但问题是不知道卖给谁。
这背后反应的,不只是软件生态的问题,硬件生态本身也还不成熟。只如果 CPU,就必定会走向多核,多核就涉及片上互联收集,Arm在片上互联这件事上,已经有比较成熟的解决筹划,但RISC-V还没有。
于是就出现一种很实际的困境:想做RISC-V CPU,但片上互联又要去找Arm买。Arm愿意把互联收集卖给你,也想趁便把CPU核一路卖给你。这就是RISC-V今朝在工程层面面对的实际艰苦,也解释还有很长的路要走。
为什么兼容 CUDA 轻易,复制 CUDA 生态极难?
也有人认为,将来指令体系可能没那么重要,因为如今是“软件定义一切”,上层可以用 Python、Java 这些平台无关的高等说话。但从实际成长来看,情况并不是如许。以Intel为例,无论是以前的AVX-512、SGX,照样如今环绕人工智能赓续参加的新指令,都解释:硬件指令的直接支撑,对机能和能效始终是有价值的。
在XPU范畴也是类似的情况。如今大年夜家都在讲兼容 CUDA,因为 CUDA 的生态确切做得好。很多做其他XPU、AI加快器的厂商,第一件事就是要兼容CUDA。
但 CUDA本质上是什么?它其实就是一个高等说话接口,是英伟达的一套API。从技巧角度看,兼容一个API并不难,有一个编译器,就可以兼容CUDA的接口。但真正难的,是兼容 CUDA 背后的软件生态。
生态从来不只是一个 API,它包含了大年夜量算力库、函数库、开辟对象和工程实践,这是一套异常复杂、经久演进的体系,工作量极其宏大年夜。
也正因为如斯,如今国度层面也意识到这个问题的重要性,正在推动大年夜家一路做生态扶植。从这个角度看,打造我们本身的算力生态是异常有须要的。除了CUDA,英特尔、AMD 也都在做各自的生态,我们假如不做,就永远受制于人。
谁能把芯片做成?软件生态决定成败
从整体来看,我们如今的算力体系仍然存在不小的缺口和瓶颈。中国甚至全球范围内,半导体的成长速度都在放慢,但算力需求却在持续增长。中国还面对制程方面的限制,这就决定了我们必须经由过程跨学科交叉,在体系、软件和算法层面,去寻找实际机能的冲破。

算力的发挥,靠的不只是硬件。硬件当然是基本,但硬件的峰值机能,本质上只是一个指标。真正的机能晋升,很大年夜一部分来自软件优化。
做高机能计算的人都知道,LINPACK可以把整机效力跑到60%~70%,但LINPACK只是测试法度榜样,不是真实应用。真正的应用软件,能跑到整机20%~30%的效力已经异常不轻易。这里面还有很大年夜的优化空间。

我们的芯片峰值机能可能很难做到最高,但假如能打破硬件和软件之间的隔阂,在软件、编译、体系层面多做一些优化,即便在峰值机能相对低一些的芯片上,也完全有可能获得不错的应用后果。这是将来异常重要的一项工作。
别的,如今大年夜家都在做 GPGPU,但GPU最根本的才能同样重要,比如纹理生成、图案着色、光照和暗影处理等。如今有些GPGPU已经产生了“异化”,只能计算,不克不及衬着。但假如我们真的要实现从小说生成电视剧,不仅须要 GPGPU 的计算才能,也同样须要GPU的图形衬着才能。AIGC不只是生成文章,还应当能生成影视内容。
计算芯片家当的成长,本身是一个螺旋式上升的过程。早期体系厂商都邑本身做CPU,因为 CPU是计算机体系的核心;后情因为量产和成本压力,x86快速成长,体系厂商慢慢退出;而如今,体系厂商和平台厂商又从新开端自研芯片。
美国的互联网巨擘如斯,中国的互联网厂商、体系厂商也都在自研CPU。自研自用这条路能不克不及走通,关键并不在于“能不克不及做芯片”,而在于:可否为产品和办事供给足够大年夜的增值,可否掌控全栈软件体系。
苹果是一个异常典范的成功案例。从跟摩托罗拉和IBM结合开辟PowerPC CPU,到转向采取Intel CPU,再到基于Arm架构自研CPU,它之所以能成功,原因其实异常简单:经由过程自研高机能芯片,合营自有的软件体系,形成异常领先的用户体验,在此基本上把产品卖得很贵。手机卖得贵,笔记本也卖得贵。其它厂商假如做不到这一点,仅仅自研芯片,最终大年夜概率都邑掉败。只有软硬件通吃,才能真正卖得贵。
我们要不要再搞新的指令体系?我小我的看法是:架构立异不须要依附新的指令体系。指令体系只是硬件和软件之间交换的说话,我们没须要赓续增长新的说话。假如要做立异,在现有指令体系下完全可以做,RISC-V 已经足够了。
归根结底,谁能把芯片做成功?不管是CPU照样GPU,只有真正看重软件和应用生态,才有成功的可能。“软件定义一切”,这个“一切”,同样包含成功和掉败。
对于平台厂商和体系厂商来说,假如要自研芯片,必定要有清楚的差别化,并且这个差别化必须能为体系或办事带来明显增值,不然应用成熟的商用芯片,反而是更理性的选择。
最后我照样欲望,大年夜家能把RISC-V作为一个同一的指令体系偏向。无论是CPU、GPU照样其他处理器,都尽量同一到同一架构平台上,削减反复投入。

我们常说“三国定律”,合久必分,分久必合。以前是CPU为中间,如今是CPU + XPU的异构体系,将来也许会回到以CPU为中间的新一体化架构。RISC-V具备必定的包涵性,有机会融合 CPU、GPU 和 AI 处理器的特点,接收开源体系的力量,慢慢冲破 CUDA 的生态壁垒。
以上就是我全部的分享,感谢大年夜家。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复