CUDA生态的开辟者数量在2020年约为180万,到2025年已跨越450万,每月对象包下载量达数十万次。到今天,英伟达还在赓续加深这个护城河。

在中国市场,摩尔线程试图重讲一个类似的故事,构建一个中国版英伟达生态大年夜厦。

12月20日,在北京中关村国际立异中间,摩尔线程首届MUSA开辟者大年夜会(MDC 2025)现场,摩尔线程开创人张建中在上市后初次公开表态演讲,从“花港”新架构,到“夸娥”万卡集群,再到单卡推理机能冲破,第一次体系性摊开了本身的技巧底牌,步步直比英伟达。宣布该开辟者大年夜会信息后,摩尔线程连涨三天,合计涨幅超50%。


“生态体系是GPU行业的核心护城河与价值地点。”张建中在主题演讲中直言,这不仅是摩尔线程五年来在自立全功能GPU架构MUSA上的投入,也是其在2025岁终向市场交出的新答卷。

对标英伟达,亮出全新架构“花港”

假如说芯片是算力的躯体,那么架构就是其魂魄。英伟达的Blackwell、Hopper均以架构定名,其重要性不问可知明。摩尔线程此次宣布的全功能GPU架构“花港”,恰是其面向下一代计算范式的核心载体。


根据官方材料,“花港”架构在计算密度、能效、精度支撑、互联才能及图形技巧等方面实现周全冲破:

计算机能明显晋升:基于新一代指令集,算力密度晋升50%,能效大年夜幅优化;支撑从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混淆低精度支撑。

异步编程与超大年夜范围互联:集成新一代异步编程模型;经由过程自研MTLink高速互联技巧,支撑十万卡以上范围智算集群扩大。

图形与AI深度融合:内置AI生成式衬着架构,加强硬件光线追踪加快引擎,完全支撑DirectX 12 Ultimate。

基于“花港”架构,摩尔线程明白了两条芯片产品线:

“华山”:专注AI训推一体与超大年夜范围智能计算,为万卡级智算集群供给算力支撑,定位为“下一代AI工厂的坚实底座”。官方表示其机能约在Hopper和Blackwell之间。

“庐山”:专攻高机能图形衬着,图形机能实现周全跨越:AI计算机能晋升64倍,几何处理机能晋升16倍,光线追踪机能晋升50倍,运行3A游戏机能晋升15倍。

在AI算力竞争已进入“万卡集群”时代的今天,摩尔线程正式宣布了夸娥万卡智算集群(KUAE 2.0),并展示了其支撑万亿参数模型练习的工程化才能。

该集群核心指标包含:练习算力应用率(MFU)在Dense大年夜模型上达60%,MOE大年夜模型上达40%,有效练习时光占比跨越90%,练习线性扩大效力达95%,“在多项关键精度指标上达到国际主流程度”。

在推理侧,摩尔线程结合硅基流动,在DeepSeek R1 671B全量模型上实现机能冲破:MTT S5000单卡Prefill吞吐冲破4000 tokens/s、Decode吞吐冲破1000 tokens/s。这一数据被官方称为“建立国产推理机能新标杆”。

中国工程院院士、清华大年夜学计算机系传授郑纬平易近在大年夜会演讲中指出,固然构建国产万卡甚至十万卡级其余超大年夜范围智算体系存在难度,但“这是必须完成的家当基本举措措施义务”。

摊牌了,要做中国“CUDA”

实际上,摩尔线程为何如斯看重生态?不单单是对标英伟达那么简单。

GPU之战,终局在生态,英伟达凭借CUDA建筑了近二十年的护城河。

“MUSA不仅完全定义了从芯片设计到软件生态的同一技巧标准,更代表了公司保持底层立异、践行经久主义的计谋核心。”张建中表示。

据官方披露,截至2025年12月,摩尔线程经由过程“摩尔学院”汇聚了20万名开辟者与进修者,并经由过程“国产计算生态与AI教导共建行动”走进全国200多所高校,吸引超10万逻辑学子介入。


在软件栈层面,MUSA 5.0实现周全进级:原生支撑MUSA C,深度兼容TileLang、Triton;核心计算库muDNN实现GEMM/FlashAttention效力超98%,通信效力达97%。公司还筹划慢慢开源计算加快库、通信库及体系治理框架等核心组件。

“只有生态能把所有开辟者结合在一路,单一企业很难独自扶植全部生态。”

在行业人士看来,放眼全球,今朝仅英伟达等极少数企业具备真正意义上的全功能GPU量产才能。摩尔线程的切入,弥补了国内该类型产品的空白,形成了差别化壁垒。不过,以上两款产品还都是“期货”,量产还须要时光。

一位AI行业从业者告诉凤凰网科技,“经由过程软硬件的协同设计,做比较好的软件实现,照样可以或许把国产算力充分发挥起来的”。

不少从业者都认为,以当前的模型预练习需求来说,依旧以英伟达的芯片为最优解,但其同样溢价不菲,单个芯片市场报价平日在20万至25万元之间。在持续暴涨的AI需求面前,这是一笔须要计算的经济账。

“一向到2010年,我们去研究一些CUDA的器械的时刻,照样会认为各类问题,之前大年夜家都是英特尔的X86,很成熟了,一做CUDA,这也不可,那也不可,我们就开打趣怎么做这么烂的?”一位在早年间就专注于英伟达CUDA做软件研究的从业者告诉凤凰网科技,如许的状况持续了仅五六年,到2015年,想再找CUDA的bug就很难了。

是以在获准向中国出售H200之际,黄仁勋也表示,“美国放松对AI芯片发卖的限制,中国事否会接收英伟达的H200芯片,我对此并不肯定。”

“现阶段来看,假如大年夜家愿意在软件上做相干工作,最终国产算力筹划未必不如国外”,前述AI行业从业者表示,不过其也熟悉到国产生态扶植之难。

摆在摩尔线程面前的,仍是漫漫长路:生态扶植非一日之功,大年夜范围商用安排仍需持续验证,国际竞争情况日益复杂。亮剑之后,更关键的是若何攻城。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部