生成式AI的海潮,正从云端走向端侧,而端侧AI是生成式AI普及的关键。
然而,端侧设备广泛对功耗更为敏感,如安在供给足够AI机能的同时包管低功耗?
Arm的妙招是将专用的矩阵加快单位直接嵌入CPU。Arm终端事业部产品治理副总裁 James McNiven说,“它使端侧AI推理可以直接在CPU上完成,从而大年夜幅削减数据在 CPU、NPU或GPU之间的传输延迟。”
本年9月,Arm宣布了集成第二代Arm可伸缩矩阵扩大 (SME2) 新技巧的 Arm Lumex CSS 平台,比拟前代CPU AI机能晋升高达五倍,能效也优化了三倍。
在近日举办的Arm Unlocked 2025 AI 技巧峰会深圳站,Arm终端事业部产品治理副总裁 James McNiven进一步解析了Arm全新的Lumex CSS 平台,集成了基于 Armv9.3 架构的 CPU 集群、搭载第二代可伸缩矩阵扩大 (SME2) 技巧的处理器、Mali G1-Ultra GPU、先辈的体系 IP,以及针对 3 纳米工艺节点优化的量产级物理实现筹划。

Arm启用全新定名体系Lumex,CPU用「妙招」大年夜幅晋升AI机能
Arm本年宣布新一代产品不再延续此前的定名方法,而是启用了Arm Lumex的新定名方法。
“Lumex源自拉丁语,意为世界之光,象征着引领人们前行,促进光与人之间更深层的互动,与移动终端作为我们生活中关键且重要的互动设备概念类似。”James McNiven告诉雷峰网,“我们也广泛听取了包含来自中国市场的生态伙伴反馈,个中包含过往的定名方法确切较为复杂,产品迭代的辨识度不高。是以,我们欲望经由过程此次改名,让品牌体系加倍清楚易懂。”
James强调,Arm Lumex CSS 平台再次实现了两位数的每时钟周期指令数 (IPC) 机能晋升,这是Arm持续第六年实现两位数增长,意味着在雷同功耗下可获得明显的机能晋升。
与持续六年实现IPC两位数同样值得存眷的是,在CPU中直接嵌入了专用的矩阵加快单位第二代可伸缩矩阵扩大 (SME2),在进一步解析SME2之前,先介绍全新的CPU。

新一代计算平台改名为Lumex之后,CPU也不再延续此前Cortex的定名方法,而是采取更简明的C1 定名体系。C1 CPU 集群均基于 Armv9.3 架构而设计,根据不合客户、市场需求有Arm C1-Ultra、Arm C1-Premium、Arm C1-Pro、Arm C1-Nano四个层级。

Arm C1-Ultra能供给最高的旗舰级设备峰值机能,可实现最高 25% 的单线程机能晋升;Arm C1-Premium专为次旗舰市场打造,它的机能在接近C1-Ultra 的同时,整面子积缩减约 35%。
“当任一设备采取了C1-Ultra或者是C1-Premium,该设备就可以被称为Lumex设备。”James表示。
Arm C1-Pro是新一代的Cortex-A700 系列,Arm C1-Nano是新一代的Cortex-A500系列。
固然Arm C1 CPU的机能层级不合,但都深度集成了SME2,这是专为加快矩阵运算和相干负载而设计,异常合适移动设备等对功耗和响应速度请求极高的场景。

那为什么在CPU中增长矩阵加快是一个在端侧知足AI计算需求的“妙招”?James对雷峰网("大众,"号:雷峰网)说,“起首,对延迟极为敏感的场景而言,在CPU内实现矩阵加快,可以明显晋升应用的计算效力,特别是在快速 AI 推理场景中,无需再将义务回传至NPU,避免了可能导致的内存拜访延迟。其次,几乎所有设备都邑搭载CPU,且Arm CPU 被广泛采取在绝大年夜多半的移动设备上,这为开辟者带来了极大年夜的便利性。他们无需针对不合的 NPU 架构进行适配,也无需为不合设备从新设计计算逻辑(因为某些终端甚至并不具备 NPU),更可免除推敲安然模型等其他身分。”
除了更好的机能和开辟者友爱的生态,端侧AI的爆发也面对其它技巧挑衅。James认为,在体系级 IT 设计中,必须确保 CPU 与 GPU 之间,以及它们与存储体系之间的高效互连。优化数据互连以实现更高效的数据流,是当前面对的重要挑衅之一。Arm经由过程优化互连架构,进一步降低数据传输过程中的延迟,实现更快速的内部内存拜访。
当然,为CPU增长矩阵加快的才能大年夜幅晋升其AI机能,目标并非要替代GPU或者NPU在处理AI负载时的感化,而是可以根据负载的类型选择最合适的计算单位,为用户供给最佳的AI体验。
语音辨认就异常合适应用SME2进行加快,这类义务对响应速度请求极高、数据量相对较小,在 CPU 上直接履行不仅能明显晋升流畅度。
今朝,Arm已经与包含付出宝、淘宝等移动应用伙伴合作,基于SME2的集成,优化用户体验。vivo与OPPO也推出支撑SME2的设备。Arm也与腾讯GiiNEX针对SME2展开游戏方面的合作。腾讯的初步测试成果显示,启用SME2后机能晋升达2.5倍。Google也确认将来将在Android 体系版本中支撑 SME2。
不过,为CPU增长矩阵加快才能并非Arm独有的妙招,RISC-V也在采取如许的方法知足生成式AI的需求,那Arm的优势是什么?
比拟SME1,SME2的机能晋升达5倍,能效晋升3倍,在低延迟、高及时性应用处景中展示出独特优势。
James表示,“Arm 的最大年夜优势在于,我们的CPU架构已应用于全球约99%的智妙手机之中。对于开辟人员来说异常轻易同一目标,直接可以安排。”
GPU机能双位数晋升,神经技巧来岁商用
可以看到,Arm全新平台的进级都是为了加快端侧AI的爆发。可以预感,凭借着Arm正在推动的“平台优先”计谋,Arm依旧会是生成式AI海潮里,花费电子、汽车及基本举措措施等关键范畴的引导者。
与CPU机能持续两位数晋升一样,Arm的GPU也已经持续四年实现了双位数的机能与能效晋升。与C1 GPU定名体系对应,Arm GPU的定名为“Mali G1”。
Mali G1-Ultra是旗舰级GPU,可以或许在更低功耗下完成包含照片、视频在内的大年夜多半推理义务。在各类图形基准测试中,Mali G1-Ultra 较前代产品实现了20%的机能晋升,并引入第二代光线追踪单位,在跨平台光线追踪机能测试 Solar Bay Extreme 上,Arm最新的光线追踪单位将实现两倍机能晋升。

Arm将光线追踪机能实现两倍晋升的最终目标,是可以或许在游戏中实现加倍周全、天然的光照后果——从局部光照慢慢迈向全场景光照。这将为游戏团队带来更大年夜的创作空间,使他们可以或许在同一款游戏中整合更多的光线追踪组件,从而实现更高质量、更具沉浸感的照明表示。
在GPU层面更值得等待的是Arm在本年8月宣布的“神经技巧”,这一新技巧将被用于来岁面世的终端设备。

James介绍,神经技巧是Arm将来的重要成长偏向。这项技巧能赞助开辟者更充分地将 AI 才能应用于图形处理,无论是图像放大年夜、去噪照样新内容生成,都将带来加倍真实与沉浸的视觉体验。今朝,已有多个开辟者社区和游戏工作室在与Arm合营推动这一偏向。
当然,Arm面向Vulkan的开放Arm ML扩大能闪开辟者更随便马虎地将AI作为图形管线的原生部分整合到移动端衬着。
加快端侧AI爆发的关键——开辟者友爱
Arm全新的Lumex CSS 平台在CPU与GPU层面都实现了两位数机能晋升,也带来了明显的AI机能加强。
要让这些机能被充分释放,开辟者友爱的生态至关重要,Arm对此投入巨大年夜。
“为了闪开辟者更好地发挥 SME2 的潜能,自客岁起,我们在 KleidiAI 软件库的基本上,进一步扩大年夜其功能范围。KleidiAI专为加快AI应用而设计,已与业界主流的AI框架实现深度集成。这意味着无论是旧架构照样最新支撑 SME2 的架构,开辟者都能获得一致的机能加快体验。”James表示。

面向GPU,Arm推出了全球首个周全开放的神经图形开辟套件,旨在将AI衬着集成到现有的工作流程中,使得开辟者可以或许在硬件面世前一年就能着手进行开辟。这一开辟套件在本年八月的宣布时就已获得六家重要游戏工作室的支撑,比来又有一家新的游戏工作室完成了集成测试。
另一个凸起的挑衅在于,AI应用几乎每隔数月甚至是数周就会出现新的应用形态,涉及不合的数据类型、运算符与指令集。Arm新推出的C1 CPU供给了高度灵活的计算引擎,可以生成并履行几乎随便率性类型的运算符,处理各类类型的数据。
别的,和所有AI介入者一样,Arm也要面对各类不合的场景。Arm的策略是经由过程微架构来实现不合细分市场的差别化需求。比如Arm C1 CPU的四个层级的产品,既能为客户供给丰富的选择,也能让他们更便利地为目标市场“定制”适配筹划。
在花费电子范畴之外,Arm还有面向汽车行业的 Arm Zena CSS 计算平台、面向基本举措措施的Arm Neoverse CSS计算平台,还有即将宣布的面向PC市场的Arm Niva平台。
Arm正经由过程从云端到边沿再到端侧的全线计算平台,加快生成式AI的普及。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复