2025年12月12-13日,第八届GAIR全球人工智能与机械人大年夜会在深圳·博林天瑞喜来登酒店正式启幕。
在人工智能慢慢成为国度竞争核心变量的当下,算力正以前所未有的速度重塑技巧路径与家当构造。13日举办的“AI算力新十年”专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到家当化落地展开体系评论辩论,试图为将来十年的中国AI家当,厘清关键变量与成长偏向。
IO本钱开创合股人赵占祥,专注于硬科技与半导体范畴的早期及成经久投资,在大年夜会上,他揭橥了题为《大年夜模型时代,国产AI芯片破局的几种新技巧路线》 的演讲。

经久存眷半导体与硬科技的他,近几年密切不雅察着国产AI芯片在实际束缚下的演进路径。“本年国产GPU的市场占领率已接近一半,在先辈制程受限的背景下,纯真沿着GPU的既有路线持续追赶英伟达,必须依附新的技巧路径”,他开宗明义。
从这一断定出发,赵占祥体系梳理了以前一年国内出现出的多条摸索路线,覆盖云端、边沿、端侧、IoT末尾以及先辈封装等多个层面。
云端偏向,赵占祥重点提到TPU、Hybrid Bonding(混淆键合)、大年夜容量SRAM推理芯片以及大年夜范围分布式互联等筹划。这些路线的合营点,是绕开对HBM和先辈工艺的高度依附,经由过程体系设计获得整体机能晋升。“英伟达本身流片的成本只占四分之一,一半的成本在HBM上”,他说,“假如带宽能上去,本质上就是用存力去抵消算力不足。”
齐力半导体是一家从事先辈封装产线的公司,产品涵盖2.5D与3D封装,个中3D封装就是在2.5D的基本上引入了TSV技巧。
在他看来,很多值得存眷的变更,也正产生在端侧和末尾。除了在演讲中梳理多条新兴端侧芯片路线外,赵占祥在演讲停止后也与雷峰网展开对谈,进一步说清楚明了他为安在非分特别看重端侧市场,以及这些偏向如安在实际束缚下跑通贸易闭环。(作者经久存眷半导体、算力高低游等偏向,迎接添加微信 Ericazhao23 交换。)
对话:端侧芯片市场大年夜,工程师红利是贸易闭环关键
雷峰网("大众,"号:雷峰网):您在演讲平分享了很多端侧AI的案例,为什么本年侧重看端侧芯片市场?
赵占祥:接下来AI技巧要真正落地,就要靠端侧。这个市场将来范围肯定也是海量,全球PC与平板的出货量大年夜约四亿台、手机十几亿台,这些都是端侧芯片巨大年夜需求的基本。
更重要的是,AI硬件将来的机会是中国的。
软件生态的客户群体集中在国内,这给中国芯片厂商创造了天然优势。就像蓝牙耳机范畴——中国占据全球90%的市场份额,核心芯片也几乎都是中国厂商供给。这种生态逻辑和Arm很类似,可以说,假如没有中国厂商,就没有今天Arm的家当影响力。
雷峰网:但有一种说法认为,部分端侧芯片的出货量有限、成本利润又比较低,难以覆盖临盆成本。那么,端侧芯片想实现贸易闭环,重点会在什么处所?
赵占祥:可以看看瑞芯微的例子,他们如今利润表示很好,核心就是以前十年里,把办事做到了极致。比如,他们能做到无原厂接入的情况下直接调换,所以大年夜家在深圳想做AI硬件,会优先想到瑞芯微。他们各类解决筹划都有,这种严惩事的模式就是中国工程师红利的表现。
美国厂商就做不到这一点,他们更善于把开辟平台打磨到极致,但办事才能弱;中国厂商或许在机能上稍减色,但能经由过程深度适配知足不合产品需求,这种落地才能在AI贸易化阶段,反而成了核心优势,可以经由过程“堆人”做好办事。
雷峰网:今朝来说,端侧芯片的成长重要面对什么瓶颈?
赵占祥:起首是功耗,当前的AI手机芯片是跑不了大年夜模型的,算力不敷、存储容量不敷,大年夜模型对内存的消费照样太大年夜了,这也是为什么如今有公司在推PIM+3D DRAM的筹划,就是经由过程存内计算,让内存直接承担计算义务、再用3D堆叠封装晋升存储容量,也能降低整体功耗。
赵占祥:如今末尾AI的形态,主如果指环、眼镜等可穿戴设备,还有各类传感器和智能家居、AI硬件。不过,接下来爆发力最强的多模态AI硬件应当就是AI眼镜了,来岁大年夜概率会迎来销量暴涨,保守估计能卖几切切部,核心驱动力就是成本降低。
今朝已有中国厂商在日本卖的一款智能眼镜,售价才几十块钱,固然只是加上个耳机功能,但销量异常大年夜。将来AI眼镜的成长路径,应当是“先降成本、再升体验”,将来AI眼镜完全有可能降到通俗眼镜的价格,就像如今买个太阳镜只要一百块钱那样。
作为AI产学研投界的标杆嘉会,GAIR自2016年创办以来,始终逝世守“传承+立异”内核,始终致力于连接技巧前沿与家当实践。
雷峰网:那在末尾AI这边,要实现贸易闭环会有哪些比较可行的路径?
赵占祥:末尾最后应当也会跑出极致低功耗的AI芯片公司,或者Arm如许的IP供给商。比如有公司就是卖IP授权的,做SoC、电源治理、传感器、MCU等芯片的厂商可以买他们的IP集成进去,这种IP的伸缩性特别好,能支撑起完全的生态供给链。
并且,IP模式之所以能形成闭环,关键在于“量大年夜”。低功耗AI IP成本很低,芯片公司假如本身研发,不仅要花钱招人,后果还未必好,直接采购反而更划算。就像蓝牙耳机芯片一年出货三十亿颗,哪怕每颗收一毛钱授权费,也能有三个亿的收入了。
不过,除了技巧还有生态的才能。对新入局的NPU创业公司来说,手机生态的壁垒太高了:华为有本身的芯片生态,小米、OPPO高端机重要用高通芯片,vivo X系列高端机用联发科,这些新NPU公司怎么和主芯片厂商建立合作,是很重要的。
在混淆键合技巧下,可以实现数十至数百TB级其余带宽才能,这也对检测设备提出了更高请求。以前检测设备重要办事于先辈制程,但当前先辈封装需求快速增长,对微凸块3D检测和全流程缺点检测提出了更高请求——这么多颗芯片里,一旦焊接或键合存在缺点,可能导致多颗芯片同时报废,成本极高。跟着堆叠层数增长,良率降低问题加倍凸起,就只能依附高精度检测设备包管质量,以此控制成本。
以下是赵占祥演讲的出色内容,雷峰网作了不改变原意的整顿与编辑:
前面几位嘉宾重要分享了国产GPU的成长路径。正如刚才罗总提到的,本年国产GPU的市场占领率已接近一半。在先辈制程受限的背景下,纯真沿着GPU的既有路线持续追赶英伟达,很难在机能上超出英伟达,所以必须依附新的技巧路径。
自客岁起,国内又出现了一二十家立异的芯片公司,测验测验经由过程新的架构设计和工艺路线,摸索大年夜模型时代AI芯片的成长偏向。今天,我将环绕这些技巧路线展开分享。
起首我们回想下美国对华出口管束的演进。
2022至2024年间,相干限制“变本加厉”,核心集中在先辈计算与先辈制程范畴,包含光刻机、HBM、先辈封装,还有混淆键合和人员流动限制等关键环节。在如许的情况下,中国要依附EUV工艺向2nm等先辈制程演进,难度照样很大年夜的。
我也列一下国内涵不合偏向上的立异技巧路线,包含云端的AI芯片、边沿的AI芯片、端侧的AI芯片、IoT末尾的AI芯片和先辈封装。中国真正强的是,我们可以把应用做好,有工程师红利,我们在各个范畴都有不合的定制化筹划和立异的解决路线。
三大年夜路线破制程限制:TPU、Hybrid Bonding、SRAM
起首,是数据中间的AI芯片。
第一条路线,是TPU路线。Google最新宣布的Gemini3模型,就是基于TPU进行练习。今朝,包含OpenAI、Anthropic、xAI在内的多家AI巨擘,已向Google下单采购TPU。如今Google正式对外发卖TPU芯片了,已经是全球出货量仅次于英伟达的AI芯片产品。
TPU的核心特点在于以“超节点机能”为目标,而非单卡机能。其优势包含更大年夜范围的超节点架构、更高性价比,以及相对友爱的软件生态。在不依附CUDA的前提下,经由过程体系级设计获得整体机能晋升,同时削减对先辈制程、HBM以及NV/IBSwitch的依附,从而明显降低成本——甚至达到远超英伟达十倍以上的超高性价比。
之后,是3D-TokenPU,这条路线的核心在于Hybrid Bonding(混淆键合)技巧。进入大年夜模型时代后,对数据存储的请求是更高的。其实英伟达本身流片的成本只占1/4,1/2的成本则花在HBM上。假如我们用Hybrid Bonding的方法,比拟HBM的带宽是更高的,如今HBM的带宽就是几个TB/s,等于是用存力抵消了算力不足的问题。
第三,是大年夜容量SRAM推理芯片。这个筹划以SRAM为核心,比拟于GPGPU,具备三项明显优势:
低时延,可实现毫秒级响应;低成本,单位机能成本相比传统GPGPU进步了10倍;低功耗,无需HBM,也不依附先辈制程,从而明显降低制造难度和能耗。
接下来,是百万卡分布式互联筹划。在超大年夜范围集群中,收集成为关键瓶颈,传统无损收集在万卡范围下可用性降低明显。有公司就采取基于以太网、许可丢包的互联筹划,使体系具备更强的可扩大性,有望支撑百万卡级其余分布式集群。
再来看看边沿芯片的成长。
演讲全文

起首,英伟达近期宣布Spark AI Station,搭载GB10芯片。将来家庭场景中,NAS有可能从纯真的存储中间演进为计算中间,就都要配一个边沿AI芯片。摄像优等设备也会从被动监控变成主动认知,天然就须要大年夜模型的计算才能,这一变更为国产筹划供给了落地优势。
在机械人等范畴,当前芯片仍是被英伟达Orin垄断的,国产芯片今朝最大年夜的问题就是算力没有那么高,用得最多的瑞芯微只有几个TOPS,智能体的GPU算力可以做得更高。
存算一体+三维架构,跑通端侧AI芯片的“弗成能三角”
而端侧AI芯片,主如果手机以及各类智能终端。
起首,一种是苹果NPU路线。苹果的NPU从2017年开端做,做到如今8年的时光了,迭代了很多代,已经是很成功的NPU了。
它的优势在于强通用性,能支撑所有AI收集;其次是高能效比,苹果的NPU已经不须要比参数了,它的能耗比比拟于传统的CPU和GPU,有10倍以上的优势,比拟其他的AI芯片,面积只有1/2至1/4。
此外,还有高效编译器以及优胜的可扩大性。所以苹果主如果易用性做得异常好,而不是一味地寻求算力的机能和参数。
之后,是3D DRAM+PIM的端侧筹划。3D DRAM是堆叠封装的技巧,而 PIM 在此基本上引入计算逻辑,使端侧设备在更小面积、更低成本和功耗前提下实现更高算力。
微纳核芯则采取了全球开创的三维存算一体3D-CIM架构,兼顾了高机能、低功耗与低成本这个“弗成能三角”。在存储芯片中引入计算逻辑,相当于将NPU核心直接集成至DRAM中。如许做的优势在于,手机体系无需额外增长AI芯片,内存芯片本身即可承担计算功能,与CPU协同工作,整体芯片数量不增长,功耗较低,Token生成才能可达每秒百级。
接下来,是末尾AI芯片。末尾AI芯片的核心诉求是超低功耗处理才能。
此外,3D DRAM的成长高度依附先辈封装。比来我看到一家深圳的公司,他们就是做先辈封装设备核心零部件的,如今全部产能都拉满了。芯片公司让先辈封装厂扩产,先辈封装厂让设备公司扩产,设备公司让上游模块厂商、组件厂商扩产,全部家当链早年几年的无人问津、到如今产能拉爆,来岁的产能还会加倍重要。甚至,有些设备厂商的订单都已经排到了来岁下半年,全部行情都被AI算力带起来了。
有公司提出的LPU架构,采取四层3D DRAM堆叠,内存带宽可达24TB/s。GB10处理的Token在每秒个位数,但这个比拟传兼顾划,其Token处理才能可以达到每秒上百个。
在先辈封装需求推动下,又有一些新的机会出现。
比如,电容、电感等器件,传统电容电感重要安排在PCB板上,占用面积较大年夜;而在先辈封装中,这些器件须要内嵌至芯片内部,只能采取硅电容筹划,应用于高机能SoC、AI算力芯片及高速光模块里面,所以硅电容将来的需求是很巨大年夜的。
雷峰网:估计来岁在端侧这边,会有哪些应用能率先范围化落地吗?
以苹果电脑为例,单个主芯片须要的硅电容数量可达8–11颗,用量异常大年夜。相干核心技巧,包含半导体MOS工艺、3D纳米构造、深沟式技巧及高容积率PICS技巧。以前放在PCB板上,器件坏了之后把它拿下来换一下就可以了,但如今弗成能把芯片拆了拿出来换,靠得住性请求更高,门槛比拟之前高了很多。
而在3D封装中,层间焊接之间假如有闲暇,就难以经由过程电子束、光学或X射线检测发明,往往须要依附超声波检测技巧。这项技巧在晶圆键合范畴的应用范围正在扩大年夜,国内的思波微也已经推出用于先辈封装的超声检测设备。

再介绍一下光电合封,它被认为是下一代AI算力的基石。与传统光模块筹划比拟,其在功耗、集成度、靠得住性和安排效力方面具备明显优势。具体来看,功耗可以降低约3.5倍,集成度晋升约63倍,靠得住性晋升约10倍,安排时光缩短约1.3倍。国内已经有企业在该偏向开展产品构造。
最后简单介绍IO本钱。IO本钱是一家经久专注于硬科技范畴的财务参谋机构。这一页展示的是近年来已完成上市的项目,后续也有多家企业正在推动上市过程。今朝,我们所办事和陪伴的硬科技独角兽企业数量已跨越30家。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复