近日,安谋科技(Arm China)宣布了全新的中高算力NPU“周易”X3,作为安谋科技自研的第六代NPU IP,“周易”X3一个很明显的特点是采取了专为大年夜模型而生的最新DSP+DSA架构,即通用NPU(GPNPU)架构,旨在兼顾AI加快器对机能与通用性的需求。

从初代“周易”Z1 NPU到第五代“周易”X3 NPU,产品迭代大年夜幅晋升了机能、计算效力,也进行了架构的演进。“周易”NPU X3针对Transformer及当下主流大年夜模型进行了架构进级,成为一款单Cluster支撑8-80 FP8 TFLOPS算力且可灵活设备、单Core带宽高达256GB/s的新一代边端侧AI NPU IP产品。
“周易”X3 NPU的推出,一方面表现AI技巧日新月异,展示安谋科技始终站在边沿和端侧AI的最前沿赓续更新迭代。另一方面,也代表着AI加快器的竞争正处于“纷乱”阶段,CPU、GPU、NPU都在大年夜幅晋升其AI机能。
安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士对雷峰网("大众,"号:雷峰网)表示,“AI计算架构如今处于‘纷乱成长期,大年夜家在从不合维度摸索,最终必定会收敛到一个相对最优的解决筹划,这是任何技巧成长都必经的过程。当下是一个‘百花齐放、百家争鸣’的时代。安谋科技会站在技巧演进的潮头赓续立异、持续演进,当好中国智能计算的生态领航者。”
为什么定义8-80 FP8 TFLOPS的NPU算力?
在芯片定义的早期,最关键也是最难的问题是到底要定义一款多大年夜算力的芯片。“面对这一问题,我们起重要思虑两点:第一,我们要对准哪些范畴和应用处景?第二,这些场景下产品对于NPU的体系束缚是什么?”舒浩说,“针对边端侧的主流场景和产品形态,我们进行了体系的分析和调研,定义了8-80 FP8 TFLOPS的产品算力规格。进而,针对不合范畴和场景的需求,我们筹划了灵活可配的产品特点,可以灵活、快速地适配不合场景对于NPU算力的差别化需求。此外,针对当下主流大年夜模型对于FP8数据格局的需求,我们也及时进行了算力规格的支撑。”

可以看到,“周易”X3 NPU聚焦基本举措措施、智能汽车、移动终端、智能物联网四大年夜核心范畴,定义了8-80 FP8 TFLOPS的AI算力,可应用于加快卡、智能座舱、ADAS、具身智能、AI PC、AI手机、智能网关、智能IPC等AI设备。


全新的“周易”X3 NPU,相较于前代“周易”X2,CNN模型机能晋升30%~50%,多核算力线性度达到70%~80%。在同算力规格下,AIGC大年夜模型才能晋升10倍,这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽,以及超10倍的Softmax和LayerNorm机能晋升合营驱动。
安谋科技产品计谋总监张冰表示,“‘周易’X3的8-80 FP8 TFLOPS的算力在边端侧是面向中大年夜AI算力场景,和Arm的Ethos的小算力形成了互补,Arm+Arm China的产品组合可以覆盖全部边端侧的AI算力需求。”
为什么是DSP+DSA的通用NPU架构?

“周易”X3 NPU计算效力的大年夜幅晋升和新特点的实现,离不开软硬件充分协同。
不过在数据类型的支撑上,这款通用NPU出现出一种看似“抵触”的特点:一方面积极采取低比特量化以节俭资本,另一方面又不吝资本地支撑高精度的浮点数据格局。
“周易”X3 NPU新增端侧大年夜模型运行必备的W4A8/W4A16计算加快模式,新的计算加快模式对模型权重进行低比特量化,大年夜幅降低带宽消费,支撑云端大年夜模型向端侧的高效迁徙。
而与此同时,“周易”X3 NPU支撑周全的矩阵计算数据格局:int4/int8/int16/ fp4/fp8/fp16/bf16以及混淆精度计算,加强了浮点运算FLOPS,可以实现从定点到浮点计算的转换和兼容,同时知足了传统模型和大年夜模型的计算需求。
对于端边侧的NPU来说,资本有限的情况下,业界在尽力摸索经由过程量化的方法在端侧实现更好的AI体验,“周易”X3 NPU为什么强调浮点数据格局的支撑?
舒浩解释道:“对于传统模型来说,模型的才能已经知足了实际需求,这个时刻大年夜家的存眷点会合中在模型效力和硬件计算效力上。针对这一类型的模型,业界会花更多的精力在量化等相干技巧上,同时硬件层面也只要支撑整形计算就可以知足模型的请求,进而获取更好的计算效力。然则,在大年夜模型时代,今朝整形数据格局还不克不及比较好地知足模型对精度的请求,业界的趋势是应用低精度的浮点数据格局和混淆精度计算来做一个精度和效力之间衡量。同时,大年夜模型收集仍在快速成长和赓续演进之中,这个时刻若何可以或许更快速地进行收集适配和端侧安排是更为重要的一件事。是以,”周易” X3 NPU侧重强调了对浮点数据格局以及混淆精度计算的支撑,个中包含了Deepseek率先应用的fp8数据格局。”
“周易”X3 NPU是安谋科技Arm China“All in AI”产品计谋下出生的首款重磅产品,也是“AI Arm CHINA”计谋成长偏向的症结实践。
他弥补道,“别的,针对大年夜模型算法,单从技巧上来讲,我认为如今业界没有一个足够高效和强大年夜的收集知足应用的需求。无论是模型照样量化算法都还有很多的不肯定性。在这个过渡期,量化数据格局并不知道最终会收敛于浮点照样定点,所以各类手段都要上,‘周易’X3就同时支撑定点和浮点。”
支撑浮点还有一个明显的优势,经由过程剪枝、蒸馏、量化等一系列方法进行模型等轻量化,在端侧安排时,会见临模型精度降低带来的体验降低,浮点计算能带来更高精度。
为什么供给完全的软件平台?
从体系层面上来说,这涉及到从模型、轻量化到硬件多个层面的复杂问题,“周易” X3 NPU的策略是供给相对周全的全栈优化才能,将更多的优化空间留给客户。
舒浩也指出,“假如客户是传统范畴,不须要全部的浮点类型,或者有的客户只须要浮点计算,‘周易’X3 NPU都可以灵活设备,针对不合范畴设备出相对最优的NPU筹划。”

同时支撑更低比特的量化和浮点计算恰是DSP+DSA架构的通用NPU的优势。舒浩博士分享,在计算架构的演进上, “周易” X3 NPU还将持续沿着混淆架构这个偏向进步,在NPU中吸纳更多CPU和GPU的思惟,让AI的应用可以更高效地运行在NPU上,最终衍生出真正面向AI的NPU计算架构。
“但这并不料味着NPU会替代CPU,CPU可以和NPU异构计算,承担更复杂的义务和功能。”舒浩强调。
除了DSP+DSA的架构,“周易”X3 NPU在架构层面还有其他立异,包含集成自研解压硬件WDC,这使大年夜模型Weight软件无损紧缩后经由过程硬件解压能获得额外15%~20%等效带宽晋升。
还有,“周易”X3 NPU集成AI专属硬件引擎AIFF(AI Fixed-Function)与专用硬化调剂器,可以或许实现超低至0.5%的CPU负载与低调剂延迟,灵活支撑端侧多义务场景和随便率性优先级调剂场景,确保高优先级义务的即时响应。
借助新特点,“周易”X3 NPU让大年夜模型的推理加倍高效,在Llama2 7B大年夜模型实测中,“周易”X3 NPU在Prefill阶段算力应用率高达72%,并在安谋科技自研的解压硬件WDC的加持下,实现Decode阶段有效带宽应用率超100%,远超行业平均程度,知足大年夜模型解码阶段的高吞吐需求。

安谋科技Arm China产品总监鲍敏祺指出:“‘周易’X3 NPU遵守‘软硬协同、全周期办事与成就客户’的产品准则,供给从硬件、软件到售后办事的全链路支撑。”

与“周易”X3 NPU配套的软件平台是“周易”Compass AI,这一完全的软件平台供给覆盖开辟全流程的对象链,平台中的NN Compiler(神经收集编译器)集成Parser(模型解析)、Optimizer(优化器)、GBuilder(生成器)及AIPULLM(大年夜模型运行对象),可实现主流模型的高效转化、主动化优化与安排设备生成,并且具备五大年夜核心才能,包含:
广泛的框架与模型支撑:支撑超160种算子与270种模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,供给开箱即用的Model Zoo。
立异的Hugging Face模型“一键安排”:经由过程AIPULLM对象链,直接支撑Hugging Face格局模型,实现“一站式”转化与安排,极大年夜降低开辟门槛。
先辈的模型推理优化:实现业界领先的大年夜模型动态shape支撑,高效处理随便率性长度输入序列;同时供给包含Tensor/Channel/Token Level多样量化方法,以及GPTQ等大年夜模型主流量化筹划,并增长对LLM/VLM/VLA及MoE等模型的高机能支撑,保障推理精度并实现云到端快速迁徙。
灵活的开辟者赋能:供给多种开放接口,支撑用户模型与自定义算子的开辟与调试;配备丰富的调试对象与Bit精度软件仿真平台,支撑多层次白盒开辟与机能调优,极大年夜简化算法移植与安排。
周全的体系与异构兼容:支撑Android、Linux、RTOS、QNX等多种操作体系,并经由过程TVM/ONNX实现SoC异构计算,高效调剂CPU、GPU、NPU等计算资本。
作为IP供给商,安谋科技为何要供给完全的软件平台?舒浩表示:“边端侧AI落地过程中,客户须要投入大年夜量的人力、物力进行模型适配、调优和安排。假如没有完全软件平台的支撑,这会极大年夜地增长客户营业落地的难度和工作量。‘周易’ X3 NPU供给了完全的软件栈支撑和丰富的对象,可以有效赞助客户加快AI营业的端侧安排工作。‘周易’ X3 Compass端到端软件平台恰是我们作为AI智能计算领航者一个很好的表现。作为一个开放的AI软件生态,‘周易’ X3 Compass软件平台可以赞助客户降低工作量,晋升开辟效力,在此基本上我们也开放了很多的软件接口,客户可以构建其差别化的AI体系解决筹划,进而构建差别化的产品竞争力。”

这是否意味着对于应用“周易”X3 NPU开辟芯片产品的芯片公司来说,甚至不消在软件栈方面投入就可以给开辟者应用?
舒浩解释,假如是与AI强相干的软件栈及标准模型,根本上客户不需再投入,应用“周易” X3 Compass软件栈就可以完成模型适配、调优等各类工作。“我们的目标就是避免客户对于这些组件的反复投入与开辟。同时,这种情况下我们也不建议客户进行额外的投入:因为NPU的软硬件耦合异常慎密,只在软件层面投入研发,在对硬件没有足够的懂得的情况下,很难获取体系性有效的晋升,这种投入可能是一个‘灾害’。”
“另一方面,我们的‘周易’ X3 Compass AI软件平台在runtime(运行时)层面供给了更多的自定义接口,包含:自定义算子接口、自定义图优化接口、NPU驱动接口等,应用这些接口客户可以根据SoC架构和软件体系构建合适于本身的NPU软件筹划。”舒浩弥补道。
由此可见,“周易”Compass AI软件平台完全的组件和对象,既可以知足开辟者白盒安排需求,支撑更易用的DSL算子编程说话,开辟者也可以在深度开辟模式下,应用平台中的Compiler、Debugge和DSL说话开辟自定义算子,也可经由过程Parser、Optimizer等对象打造专属的模型编译器,极大年夜晋升开辟效力。
一个能充分表现“周易”X3 NPU卓越硬件融合的例证是前面提到的AIFF模块软硬件设计中,硬件端充分结合软件应用处景,经由过程增大年夜总线带宽、增长数据流水线并行及复杂算子加快等方法晋升数据搬运、数据并行效力,软件端则针对硬件特点设计专属应用模式,如对模型进行合理切分以充分发挥多核并行优势。
明白了芯单方面向的场景以及所需的算力之后,下一步我们须要肯定这些范畴所需的AI算法和收集。经由过程体系地分析AI算法和收集的成熟度、成长状况以及在不合范畴中的应用状况,如许我们就可以进一步肯定合适的技巧路线。“周易”X3 NPU选择的是DSP+DSA的架构,这使得“周易”X3可以同时知足传统CNN模型,以及最新的Transformer模型的需求,在计算效力、互连带宽、精度适配、义务调剂四大年夜维度实现进级。
All in AI计谋,安谋科技保持AI引导力
在这一计谋之下,安谋科技会大年夜力投入NPU IP,保持业界领先地位,并以开放合作的立场积极适配主流模型和OS,致力于为客户供给涵盖硬件、软件、技巧办事的完全解决筹划。
其实从以前五代“周易”NPU就能看出其领先性,接下来安谋科技的团队还会存眷PD分别在端侧的衍生应用,存算一体以及3D IC等前沿半导体技巧,保持在AI方面的持续投入和领先地位。雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复