张良提到:“有客户在测试不到一周后,就直接做出了下单决定计划。”

AI行业的节拍正在变得越来越快。

那一阶段属于典范的“可运行但未成熟”状况,行业的存眷点更多集中在框架比较、机能指标等表层问题,而真正决定经久才能的底层构造,并没有被充分展开。

当模型范围、调用频率与应用复杂度同时增长,纯真依附算力堆叠已经难认为继。

在这种局面下,开辟者天然欲望找到一套已经经由验证、能覆盖全链路的成熟体系。这恰是CUDA生态在以前十几年建立起来的护城河:它不仅供给了算力,更定义了从编程到安排的一整套标准。

也恰是在如许的背景下,一个更实际的问题开端浮出水面:当CUDA生态已经形成稳定闭环,后来者的路径到底是什么?是尽可能兼容,以降低迁徙成本;照样从底层出发,建立一套不依附既有体系的新构造?

华为张良给出了他的谜底,他在分享会上反复强调:假如底层构造不改变,上层生态就很难真正建立。

这意味着,当前这场竞争,已经不只是算力机能的比较,而是一次环绕“体系”的重构。

在AI基本举措措施成长的早期阶段,“能不克不及跑起来”曾经是最核心的断定标准。

但跟着大年夜模型进入工程化与范围化阶段,这一标准敏捷变得不再充分。体系的瓶颈,开端从“单点才能不足”,转向“整体链路是否匹配真实负载”。

张良在回想昇腾早期成长时,并没有躲避这一点。他提到,“2018年CANN刚宣布时,我们知道CANN和硬件都是不完美的”。

回到最初的问题:当CUDA已经成为事实标准,后来者是否还有空间?

面对大年夜模型时代的新负载——长序列带来的访存压力、低精度练习成为主流,以及MoE等复杂模型架构的出现,昇腾急需解决编程模型不敷灵活、访存粒度无法适配、低精度支撑缺掉等问题。

这些问题无法经由过程软件优化或算子补丁彻底解决,只能在芯片和体系底层从新设计。

转折产生在近两年。

按照张良的说法,从2025年开端,昇腾团队“痛下决心”,不再环绕局部问题进行修补,而是回到一个更根本的断定:假如底层构造不改变,上层生态就弗成能真正建立。

在最新一代昇腾950芯片中,这种调剂表如今多个方面:编程模型更接近主流并行计算范式,降低开辟迁徙成本;数据拜访引入更细粒度访存机制,以削减大年夜模型场景下的无效带宽消费;同时提前支撑FP8等低精度计算,以晋升吞吐并支撑更大年夜模型范围。

与此同时,昇腾在架构路径上也做出了一个关键选择。在专用加快芯片逐渐鼓起的背景下,针对特定场景进行深度优化,往往可以获得更高的短期效力。

但张良明白表示,团队并没有沿着这一路径持续推动,而是保持通用架构偏向。原因在于,假如体系才能被限制在特定场景中,就很难形成外溢,也无法支撑多样化应用的持续增长。

这一选择意味着,昇腾并不只是试图把模型“跑得更快”,而是在解决一个更经久的问题:当模型赓续变更、负载持续增长、开辟范式赓续演进时,这套体系是否仍然可以或许承载这些变更。

DeepSeek V4首发适配背后:昇腾为什么保持不做CUDA兼容层?

为什么不克不及“做一个CUDA兼容层”?

DeepSeek V4首发适配背后:昇腾为什么保持不做CUDA兼容层?

为什么“持续优化”已经不敷了?

假如说底层构造决定了一套体系“能做到什么”,那么生态则决定了“有没有人愿意在上面持续做”。

从客岁的大年夜模型,到本年Agent的集中爆发,技巧热点在持续切换。但在表层变更之下,有一个趋势几乎没有产生改变:模型范围与应用强度的晋升,正在持续推高对算力的需求。

在当前AI基本举措措施格局中,CUDA已经不仅是一套技巧筹划,而是一整套高度稳定的开辟体系。从编程模型、对象链到社区与人才构造,它所形成的,不只是功能层面的才能,更是一种“默承认用”的情况。

对于后来者而言,最直接的路径,是尽可能向这一体系挨近——经由过程接口兼容与生态复用,降低开辟者的迁徙门槛。

这是一条实际且常见的路径,但昇腾并没有选择沿着它走下去。

这句话所指向的,并不只是技巧路线之争,而是一个更底层的问题:假如核心体系建立在他人的标准之上,那么无论投入若干工程资本,最终强化的仍然是原有体系,而不是自身才能。

进一步看,这种依附关系还意味着技巧演进主动权的缺掉。张良提到,“一旦出现危机的时刻,这一套体系做不到,你的特点在里面就没了。”

这里的“特点”,不仅是具体功能,也包含体系可以或许持续演进的空间。假如关键才能受限于既有框架,那么新的特点就很难真正落地,更难形成经久积聚。

在这一断定之下,昇腾选择了一条更复杂但更具自力性的路径:在底层体系上保持自研,在上层生态上尽可能对齐主流。

这意味着,在虚拟指令集、编译器以及运行时等关键环节,昇腾不依附既有标准,而是构建本身的实现;而在开辟接口与应用方法上,则主动适配主流框架,使开辟者可以在熟悉的情况中应用这套体系。

这种“分层处理”的方法,本质上是在控制权与应用门槛之间寻找均衡:既不完全依附,也不闪开辟者从零开端。

但这条路径的难度,很快表如今实际推动过程中。

在主流开源框架中,新硬件往往只能以插件情势接入,难以进入骨干体系。

张良提到,昇腾最初面对的恰是如许的情况——对方并不直接回收,而是建议“你们可以本身做插件”。这意味着,生态上的“可用”与“被承认”之间,仍然存在明显距离。

昇腾的做法,是持续介入开源社区:提交卸码、对齐规范,并经由过程工程实践验证自身实现的稳定性。在这个过程中,关系逐渐产生变更,从最初的外部适配,转向更深层的协同。

例如在Triton中实现后端支撑,在PyTorch Foundation体系中建立起持续集成流程,使平台可以或许跟随主版本演进保持同步。这些变更的意义,在于昇腾不再只是“接入生态”,而是开端介入生态本身的构建。

与此同时,生态扶植也被进一步转化为可量化的工程问题。

张良提到,昇腾对开源软件的支撑才能、以及开源软件对昇腾特点的支撑程度,被细化为特点支撑率、模型适配率、CI覆盖率等一系列指标,“请求必须保持在95%以上”。

昇腾已在DeepSeek V4宣布当天实现全系列适配,950超节点推理时延低至10~20ms,并经由过程PyPTO编程范式将算子开辟周期缩短至天级。

不过,这一路径并非没有不肯定性。

在一个已经高度收敛的生态体系中,新的平台不仅要补齐才能,还须要在时光上追赶。这不仅是技巧问题,更是节拍问题:当主流框架持续快速迭代时,新体系是否可以或许经久保持同步,并慢慢建立自身影响力,仍然取决于持续的工程投入与社区协同。

也恰是在这一意义上,“做一个CUDA兼容层”之所以没有被选择,是因为它无法答复一个更关键的问题——当生态演进产生变更时,这套体系是否仍然拥有本身的地位与空间。

Agent是新范式,照样“生态未成熟的补丁”?

在模型侧,昇腾也在推动类似的覆盖才能。

在传统AI工程体系中,开辟过程高度依附人工经验。

从算子实现到机能调优,每个环节都须要工程师深刻懂得硬件、反复调试。这种模式在早期复杂度较低时尚可应对,但跟着模型范围扩大年夜、体系链路拉长,人的处理才能开端成为效力瓶颈。

昇腾的应对方法,不是持续在对象层面做优化,而是引入新的履行主体——Agent。

张良给出的断定异常直接:“假如基于CUDA来做,那我们做的一切生态成长,都无法彻底自立。”

最直接的变更涌如今算子开辟环节:以前手写算子须要深刻硬件、反复调试,如今开辟者只需描述设计意图,Agent就可以主动完成情况设备并生成代码。开提议点从“若何实现”转向“要实现什么”。

环绕这一思路,昇腾将Agent扩大到更完全的流程——从模型检索、适配、量化,到迁徙、优化与安排,本来分散的步调被整合为一条持续路径。

张良给出的目标是:“一分钟找到模型,一小时验证,一天完成安排。”紧缩的不只是时光,更是试错成本与迭代周期。

支撑这一体系的,是“Skill”——一种标准化的才能单位,它将专家经验、调优办法以及工程流程以模块化方法沉淀下来,供Agent直接调用组合。

这意味着,本来依附于个别经验的才能,开端被转化为体系的一部分。开辟者不再须要从零构建流程,而是经由过程定义目标与束缚,让体系完成大年夜部分履行工作。

在标准化程度较高、路径清楚的义务中,Agent可以明显晋升效力。但张良坦言,在“最深层次的复杂问题”上,当前Agent的才能“还不是那么强”,仍然离不开工程师的深度介入。

这使得Agent出现出一种过渡性特点:一方面,它确切在改变开辟节拍,使本来以天甚至周为单位的流程被紧缩到小时级;另一方面,它也在承担一层“缓冲”的角色——在生态尚未完全成熟、底层差别仍然存在的情况下,经由过程主动化才能降低应用门槛。

这也引出一个更深远的问题:Agent所带来的,是一种经久稳定的新范式,照样在体系尚未完美时的过渡机制?谜底或许取决于Skill的沉淀速度和底层差别的收敛程度。但无论若何,它在当下已经实其实在地改变了开辟节拍。

从昇腾这一路径来看,它给出的谜底,并不是正面替代,也不是简单兼容,而是试图在既有体系之外,构建一套可以自力运转的构造,让这套体系在不依附既有生态的情况下,仍然具备自洽才能。

当然,这一选择仍然处在进行时之中。生态可否持续积聚、与主流框架的协同可否经久稳定、开辟方法的变更可否真正沉淀为工程才能,这些都须要时光来验证。

雷峰网("大众,"号:雷峰网)雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部