DeepSeek V4首发适配背后：昇腾为什么保持不做CUDA兼容层？

149 阅读 0 评论 0 点赞

张良提到：“有客户在测试不到一周后，就直接做出了下单决定计划。”

AI行业的节拍正在变得越来越快。

那一阶段属于典范的“可运行但未成熟”状况，行业的存眷点更多集中在框架比较、机能指标等表层问题，而真正决定经久才能的底层构造，并没有被充分展开。

当模型范围、调用频率与应用复杂度同时增长，纯真依附算力堆叠已经难认为继。

在这种局面下，开辟者天然欲望找到一套已经经由验证、能覆盖全链路的成熟体系。这恰是CUDA生态在以前十几年建立起来的护城河：它不仅供给了算力，更定义了从编程到安排的一整套标准。

也恰是在如许的背景下，一个更实际的问题开端浮出水面：当CUDA生态已经形成稳定闭环，后来者的路径到底是什么？是尽可能兼容，以降低迁徙成本；照样从底层出发，建立一套不依附既有体系的新构造？

华为张良给出了他的谜底，他在分享会上反复强调：假如底层构造不改变，上层生态就很难真正建立。

这意味着，当前这场竞争，已经不只是算力机能的比较，而是一次环绕“体系”的重构。

在AI基本举措措施成长的早期阶段，“能不克不及跑起来”曾经是最核心的断定标准。

但跟着大年夜模型进入工程化与范围化阶段，这一标准敏捷变得不再充分。体系的瓶颈，开端从“单点才能不足”，转向“整体链路是否匹配真实负载”。

张良在回想昇腾早期成长时，并没有躲避这一点。他提到，“2018年CANN刚宣布时，我们知道CANN和硬件都是不完美的”。

回到最初的问题：当CUDA已经成为事实标准，后来者是否还有空间？

面对大年夜模型时代的新负载——长序列带来的访存压力、低精度练习成为主流，以及MoE等复杂模型架构的出现，昇腾急需解决编程模型不敷灵活、访存粒度无法适配、低精度支撑缺掉等问题。

这些问题无法经由过程软件优化或算子补丁彻底解决，只能在芯片和体系底层从新设计。

转折产生在近两年。

按照张良的说法，从2025年开端，昇腾团队“痛下决心”，不再环绕局部问题进行修补，而是回到一个更根本的断定：假如底层构造不改变，上层生态就弗成能真正建立。

在最新一代昇腾950芯片中，这种调剂表如今多个方面：编程模型更接近主流并行计算范式，降低开辟迁徙成本；数据拜访引入更细粒度访存机制，以削减大年夜模型场景下的无效带宽消费；同时提前支撑FP8等低精度计算，以晋升吞吐并支撑更大年夜模型范围。

与此同时，昇腾在架构路径上也做出了一个关键选择。在专用加快芯片逐渐鼓起的背景下，针对特定场景进行深度优化，往往可以获得更高的短期效力。

但张良明白表示，团队并没有沿着这一路径持续推动，而是保持通用架构偏向。原因在于，假如体系才能被限制在特定场景中，就很难形成外溢，也无法支撑多样化应用的持续增长。

这一选择意味着，昇腾并不只是试图把模型“跑得更快”，而是在解决一个更经久的问题：当模型赓续变更、负载持续增长、开辟范式赓续演进时，这套体系是否仍然可以或许承载这些变更。

DeepSeek V4首发适配背后：昇腾为什么保持不做CUDA兼容层？

为什么不克不及“做一个CUDA兼容层”？

DeepSeek V4首发适配背后：昇腾为什么保持不做CUDA兼容层？

为什么“持续优化”已经不敷了？

假如说底层构造决定了一套体系“能做到什么”，那么生态则决定了“有没有人愿意在上面持续做”。

从客岁的大年夜模型，到本年Agent的集中爆发，技巧热点在持续切换。但在表层变更之下，有一个趋势几乎没有产生改变：模型范围与应用强度的晋升，正在持续推高对算力的需求。

在当前AI基本举措措施格局中，CUDA已经不仅是一套技巧筹划，而是一整套高度稳定的开辟体系。从编程模型、对象链到社区与人才构造，它所形成的，不只是功能层面的才能，更是一种“默承认用”的情况。

对于后来者而言，最直接的路径，是尽可能向这一体系挨近——经由过程接口兼容与生态复用，降低开辟者的迁徙门槛。

这是一条实际且常见的路径，但昇腾并没有选择沿着它走下去。

这句话所指向的，并不只是技巧路线之争，而是一个更底层的问题：假如核心体系建立在他人的标准之上，那么无论投入若干工程资本，最终强化的仍然是原有体系，而不是自身才能。

进一步看，这种依附关系还意味着技巧演进主动权的缺掉。张良提到，“一旦出现危机的时刻，这一套体系做不到，你的特点在里面就没了。”

这里的“特点”，不仅是具体功能，也包含体系可以或许持续演进的空间。假如关键才能受限于既有框架，那么新的特点就很难真正落地，更难形成经久积聚。

在这一断定之下，昇腾选择了一条更复杂但更具自力性的路径：在底层体系上保持自研，在上层生态上尽可能对齐主流。

这意味着，在虚拟指令集、编译器以及运行时等关键环节，昇腾不依附既有标准，而是构建本身的实现；而在开辟接口与应用方法上，则主动适配主流框架，使开辟者可以在熟悉的情况中应用这套体系。

这种“分层处理”的方法，本质上是在控制权与应用门槛之间寻找均衡：既不完全依附，也不闪开辟者从零开端。

但这条路径的难度，很快表如今实际推动过程中。

在主流开源框架中，新硬件往往只能以插件情势接入，难以进入骨干体系。

张良提到，昇腾最初面对的恰是如许的情况——对方并不直接回收，而是建议“你们可以本身做插件”。这意味着，生态上的“可用”与“被承认”之间，仍然存在明显距离。

昇腾的做法，是持续介入开源社区：提交卸码、对齐规范，并经由过程工程实践验证自身实现的稳定性。在这个过程中，关系逐渐产生变更，从最初的外部适配，转向更深层的协同。

例如在Triton中实现后端支撑，在PyTorch Foundation体系中建立起持续集成流程，使平台可以或许跟随主版本演进保持同步。这些变更的意义，在于昇腾不再只是“接入生态”，而是开端介入生态本身的构建。

与此同时，生态扶植也被进一步转化为可量化的工程问题。

张良提到，昇腾对开源软件的支撑才能、以及开源软件对昇腾特点的支撑程度，被细化为特点支撑率、模型适配率、CI覆盖率等一系列指标，“请求必须保持在95%以上”。

昇腾已在DeepSeek V4宣布当天实现全系列适配，950超节点推理时延低至10~20ms，并经由过程PyPTO编程范式将算子开辟周期缩短至天级。

不过，这一路径并非没有不肯定性。

在一个已经高度收敛的生态体系中，新的平台不仅要补齐才能，还须要在时光上追赶。这不仅是技巧问题，更是节拍问题：当主流框架持续快速迭代时，新体系是否可以或许经久保持同步，并慢慢建立自身影响力，仍然取决于持续的工程投入与社区协同。

也恰是在这一意义上，“做一个CUDA兼容层”之所以没有被选择，是因为它无法答复一个更关键的问题——当生态演进产生变更时，这套体系是否仍然拥有本身的地位与空间。

Agent是新范式，照样“生态未成熟的补丁”？

在模型侧，昇腾也在推动类似的覆盖才能。

在传统AI工程体系中，开辟过程高度依附人工经验。

从算子实现到机能调优，每个环节都须要工程师深刻懂得硬件、反复调试。这种模式在早期复杂度较低时尚可应对，但跟着模型范围扩大年夜、体系链路拉长，人的处理才能开端成为效力瓶颈。

昇腾的应对方法，不是持续在对象层面做优化，而是引入新的履行主体——Agent。

张良给出的断定异常直接：“假如基于CUDA来做，那我们做的一切生态成长，都无法彻底自立。”

最直接的变更涌如今算子开辟环节：以前手写算子须要深刻硬件、反复调试，如今开辟者只需描述设计意图，Agent就可以主动完成情况设备并生成代码。开提议点从“若何实现”转向“要实现什么”。

环绕这一思路，昇腾将Agent扩大到更完全的流程——从模型检索、适配、量化，到迁徙、优化与安排，本来分散的步调被整合为一条持续路径。

张良给出的目标是：“一分钟找到模型，一小时验证，一天完成安排。”紧缩的不只是时光，更是试错成本与迭代周期。

支撑这一体系的，是“Skill”——一种标准化的才能单位，它将专家经验、调优办法以及工程流程以模块化方法沉淀下来，供Agent直接调用组合。

这意味着，本来依附于个别经验的才能，开端被转化为体系的一部分。开辟者不再须要从零构建流程，而是经由过程定义目标与束缚，让体系完成大年夜部分履行工作。

在标准化程度较高、路径清楚的义务中，Agent可以明显晋升效力。但张良坦言，在“最深层次的复杂问题”上，当前Agent的才能“还不是那么强”，仍然离不开工程师的深度介入。

这使得Agent出现出一种过渡性特点：一方面，它确切在改变开辟节拍，使本来以天甚至周为单位的流程被紧缩到小时级；另一方面，它也在承担一层“缓冲”的角色——在生态尚未完全成熟、底层差别仍然存在的情况下，经由过程主动化才能降低应用门槛。

这也引出一个更深远的问题：Agent所带来的，是一种经久稳定的新范式，照样在体系尚未完美时的过渡机制？谜底或许取决于Skill的沉淀速度和底层差别的收敛程度。但无论若何，它在当下已经实其实在地改变了开辟节拍。

从昇腾这一路径来看，它给出的谜底，并不是正面替代，也不是简单兼容，而是试图在既有体系之外，构建一套可以自力运转的构造，让这套体系在不依附既有生态的情况下，仍然具备自洽才能。

当然，这一选择仍然处在进行时之中。生态可否持续积聚、与主流框架的协同可否经久稳定、开辟方法的变更可否真正沉淀为工程才能，这些都须要时光来验证。

雷峰网("大众,"号：雷峰网)雷峰网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

本文分类：互联网
本文标签：华为昇腾昇腾950 DeepSeek
浏览次数：149 次浏览
发布日期：2026-05-12 08:10:29
本文链接：https://fqpy.com/internet/13837

上一篇 > 摩尔线程最新财报：营收持续高增，推动十万卡级集群扶植
下一篇 > 磐脉920表态，平头哥算存网疆土闭环

DeepSeek V4首发适配背后：昇腾为什么保持不做CUDA兼容层？

为什么不克不及“做一个CUDA兼容层”？

为什么“持续优化”已经不敷了？

Agent是新范式，照样“生态未成熟的补丁”？

评论列表共有 0 条评论

发表评论取消回复

DeepSeek V4首发适配背后：昇腾为什么保持不做CUDA兼容层？

为什么不克不及“做一个CUDA兼容层”？

为什么“持续优化”已经不敷了？

Agent是新范式，照样“生态未成熟的补丁”？

DeepSeek V4首发适配背后：昇腾为什么保持不做CUDA兼容层？

限时惊喜价 9.28 万起！零跑 Lafa5 正式上市 重塑 10 万级纯电轿跑价值标杆

评论列表 共有 0 条评论

发表评论 取消回复

限时惊喜价 9.28 万起！零跑 Lafa5 正式上市重塑 10 万级纯电轿跑价值标杆

评论列表共有 0 条评论

发表评论取消回复