摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

作者|包永刚

对于稍微的数值缺点,在万亿参数范围下往往会被其他数值平均掉落,影响不明显,可以持续练习。有一类是严重缺点,可能导致Loss值或梯度出现一个异常大年夜的误差,Loss曲线会出现异常尖峰,频繁出现时会影响模型精度。假如这种问题经常产生,会导致练习精度的降低。还有一种致命缺点,数值异常传递并最终导致出现NaN 或Inf,导致练习中断,只能回退到之前的checkpoint进行回训。

编辑|林觉平易近

2025年12月12-13日,第八届GAIR全球人工智能与机械人大年夜会在深圳·博林天瑞喜来登酒店正式启幕。

作为AI 产学研投界的标杆嘉会,GAIR自2016年创办以来,始终逝世守“传承+立异”内核,始终致力于连接技巧前沿与家当实践。

在人工智能慢慢成为国度竞争核心变量的当下,算力正以前所未有的速度重塑技巧路径与家当构造。13日举办的「AI 算力新十年」专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到家当化落地展开体系评论辩论,试图为将来十年的中国AI家当,厘清关键变量与成长偏向。

当海外头部公司已经扶植十万卡、甚至二十万卡范围的 GPU 集群,万卡练习正在从“前沿摸索”改变为大年夜模型研发的基本举措措施才能。模型参数范围进入万亿级之后,真正拉开差距的,已不再只是单卡机能,而是练习周期可否被紧缩、体系是否经久稳定、工程效力可否支撑高频迭代。

在如许的背景下,万卡练习所面对的挑衅也产生了根本变更。节点故障、机能颤抖、通信与存储瓶颈,在集群范围被放大年夜之后都邑成为常态问题,很多在千卡范围下可以容忍的风险,在万卡场景中都邑被大年夜幅放大年夜。

王华在演讲中将结合摩尔线程在国产 GPU 万卡级真实集群上的练习实践,体系拆解这一过程中碰到的关键难题,以及响应的工程解法。从并行策略选择、练习前的模仿与起飞检查,到异步 Checkpoint、慢节点治理,再到静默数据缺点、Hang 以及 Inf/NaN 等稳定性问题的应对,他重点分享若何经由过程软件栈、主动化与可不雅测体系,把万卡练习从“能跑”推动到“可持续稳定地跑”。

这些经验并非实验室结论,而是来自真实临盆情况中反复验证后的工程积聚,他欲望摩尔线程的经验可以或许给想要做万卡练习的公司和机构一些借鉴。

我是王华,负责摩尔线程的AI与云计算相干营业。今上帝要和大年夜家分享,我们在大年夜范围练习实践中碰到的一些问题,以及对应的解决筹划。

以下是王华演讲的出色内容,雷峰网("大众,"号:雷峰网)作了不改变原意的整顿与编辑:

万卡练习我们已经评论辩论和推动了一段时光。从客岁开端到本年,我们陆续在真实集群上推动相干工作,中心确切碰到了大年夜量问题。客不雅来看,大年夜范围练习的技巧挑衅很大年夜,但在这个过程中,我们也慢慢把问题解决,并积聚了很多经验,今天与大年夜家分享。

万卡练习为何成为大年夜模型的须要前提?

起首须要答复的是,为什么万卡,甚至更大年夜范围的集群已经成为须要前提?

从模型算力需求趋势来看,主流模型,像DeepSeek或国产的万亿模型,根本都到了10的24次幂的量级。而国外一些大年夜的模型,固然没有公开材料明白给出规格,但根据市情上传播的消息,像比较大年夜的Grok4、GPT-5或者比较新的Gemini3,根本都邑达到10的25~26次幂的算力需求,这是异常巨大年夜的算力需求。

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

在国内,当前已经开源的两个万亿参数模型,一个是 Kimi K2,另一个是蚂蚁的百灵,它们的总计算量重要由两个身分决定:一是模型参数范围,对于 MoE 模型来说,核心是激活参数;二是练习数据量。

Kimi K2 的计算量大年夜约是3×10的24次幂FLOPs,激活参数范围是 32B,练习数据是15T;百灵的计算量大年夜约是6×10的24次幂FLOPs,激活参数范围是50B,练习数据是20T。

在海外,头部公司已经扶植了十万卡甚至二十万卡范围的集群,更大年夜范围的集群也在筹划中了,这一偏向在将来根本是肯定性的趋势。

若何把万卡练习集群「跑起来」?

环绕大年夜范围练习,摩尔线程从底层到顶层体系性地研发了软件栈。

在最底层,除了硬件,主如果集群调剂的部分;向上是MUSA平台,它与CUDA兼容性,使得我们可以快速地迁徙和运行模型;再往上是练习套件,针对摩尔线程的平台,我们对 MegatronLM、DeepSpeed、PyTorch、TransformerEngine 等主流框架进行了适配和优化,并且全部开源,在GitHub上就可以找到;更高一层,是Model Studio以及一系列主动化练习和安排对象。

在全部练习过程中,我们存眷的核心是练习效力。

从流程上看,大年夜范围练习平日包含起飞检查、练习拉起(建立通信组、加载数据等)、正式练习、故障定位和处理、以及故障处理落后入下一个周期。

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

以前在千卡范围下,集群可能持续运行半个月甚至一个月都不出问题。但万卡集群,单个节点出问题的概率会明显上升。早期即就是英伟达的万卡集群,也曾出现几小时就出一次缺点的情况,我们在实践中同样经历了这一阶段。

是以,在万卡练习中,要晋升整体效力,一方面必须晋升正常练习阶段的机能,另一方面则要尽可能紧缩所有非练习环节的时光,包含起飞检查、checkpoint、故障定位与恢复。只有把这些环节的时光压到足够短,练习效力才有本质性晋升。

在机能优化层面,在起飞练习前,须要肯定并行策略和超参。一种办法是可以经由过程实际拉起练习反复测验测验不合设备,但在万卡范围下,每一次拉起实验的成本都异常高。为了降低成本,我们采取了模仿的方法。

假如以我们当前这一代练习卡做一个估算,对于3×10的24次幂FLOPs的算力需求来说,大年夜概须要半年的时光;假如扩大年夜到5000卡,须要40天;到了万卡,就只须要23天。对于百灵来说,因为算力翻了一倍,对应的时光也翻了一倍。对大年夜模型来说,练习时光异常关键,如今模型的竞争异常激烈,并且我们经常会有一些新模型算法的实验,欲望快速看到成果,所以练习时光越短越好,最好不要跨越一个月。

王华在「AI算力新十年」论坛揭橥了主题为《基于国产GPU集群的大年夜范围练习实践》的演讲。

我们开辟并开源的SimuMax软件(可以在GitHub上找到),用于对不合模型和不合集群范围下的练习机能进行估算,赞助断定策略的合理性,并预估整体练习时光。这一模仿基于一系列理论计算,可以赞助断定当前练习是否已经达到速度上限。假如达到,解释机能根本到位;假如没有达到,则意味着仍然存在优化空间。环绕这一目标,我们在SimuMax中做了很多特点的支撑,包含不合模型构造、并行策略、优化技巧等。

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

在万卡集群中,起飞检查是异常有效的特点。练习启动时,调剂体系会分派资本,而节点的故障、亚健康状况,以及体系层面的收集或存储异常,都邑导致练习无法启动。

是以,我们在练习启动前,会先运行一组特定的benchmark(基准测试),对计算节点、收集、存储以及调剂节点进行周全检查。更重要的是,当检测出问题后,起飞检查会主动剔除异常节点,不再依附人工介入,实现真正的无人值守练习启动。

Checkpoint 是另一个对效力影响很大年夜的环节。假如采取同步写的方法,checkpoint 往往须要数分钟时光,这时代无法进行练习,全部集群处于闲置状况。

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

为此,我们实现了异步checkpoint:先将checkpoint写入本地内存,后续再异步写入存储体系,将checkpoint时光紧缩到秒级。这么做对于几千亿参数范围的模型来说,checkpoint 写入只需几秒即可,练习可以急速持续履行。

在DP并行策略的情况,并不须要每个节点都写checkpoint,我们对checkpoint进行切片,由不合节点负责不合分片,避免反复写入和资本浪费。假如某个负责分片的节点产生故障,则会分派其他节点完成写入义务。在读取阶段,假如某个节点挂掉落,完全从后端存储读取会异常慢,我们采取了P2P机制,直接从其他节点的内存中加载checkpoint,将加载时光紧缩到半分钟以内。有了这些优化,我们可以用异常高的频率来做checkpoint,例如每十分钟做一次。

万卡练习的挑衅:稳定性与可控性

慢节点检测在大年夜范围练习中同样异常关键,因为慢节点会拖慢全部集群的练习速度。慢节点的发明平日有两个来源:一类是节点或卡本身处于亚健康状况,在起飞检查阶段可以发明;另一类是在运行过程中出现亚健康状况,须要运行时的检查。

我们的解决筹划是在练习过程中引入了整体监控机制。练习包含前向传播和反向传播,中心包含多个通信与计算步调,我们会监控这些步调的履行时光。计算和通信步调的履行时光整体上相符统计分布规律,但不克不及拿绝对值去看每个步调的快慢,不合的模型时光不一样,我们经由过程聚类分析辨认某些异常的慢节点,并主动剔除,全部过程完全主动化。

静默数据缺点也是一个棘手的问题。与引起练习报错甚至中断的问题不合,静默数据缺点不会触发异常,也不会中断练习,数值看起来“正常”,但实际上已经产生缺点。造成静默数缺点有几种原因,一种是计算硬件有必定的故障率,在必定概率下可能会算错,就会造成静默数据;别的,内存或显存上的ECC特点对机能的影响比较大年夜,在练习的过程可能没有开启;在传输的过程中,也会出现纠错码掉效的情况,导致误码没有被发明。

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

因为异常难检查,全部业界也还在摸索,我们一方面在硬件验收阶段和练习起飞检查阶段进行压力测试,尽早辨认“体质较弱”的卡;另一方面,压测要多算子覆盖,除了GEMM、Attention外,还会用一些履行较少的算子,因为不合算子会用到卡的不合部件,达到周全压力测试的目标。同时,我们重点监控温度、电压等关键硬件指标,这些异常往往与缺点高度相干。

Hang 问题同样是万卡练习中较为棘手的一类问题。一旦产生Hang,往往全部集群都邑被Hang住。假如所有节点都Hang住,定位泉源异常艰苦。我们经由过程分布式分析的方法,结合通信库的日记,对所有介入节点的Hang原因进行记录和比对,从而定位异常节点。

一般情况下,Hang经由过程重启即可恢复,但假如某个节点经常Hang,会导致练习异常不稳定,此时须要将该节点剔除。解决Hang问题后,整体练习稳定性会有明显晋升。

Inf(Infinity) 和 NaN(Not a Number)问题是业内广泛存在的难点,其难点在于传播性, Inf加减任何正常值,都邑把正常值“吃掉落”。是以,我们重点存眷 Inf/NaN 最早出现的地位和时光点,定位那些频繁触发异常的算子或阶段。

摩尔线程王华:万卡练习中,最危险的往往是「不报错」|GAIR 2025

在集群洞察方面,我们会持续监控前向传播和反向传播中的计算和通信时光,慢节点检测恰是基于这些数据做的分析。同时,我们引入了更周全的 Profiling 才能,可以在不中断练习的情况下,一键启动或停止机能分析器,按需采集练习数据,并进行火焰图等算子级分析,甚至可以将多个节点的数据汇聚落后行结合分析。

最后,是同一的可不雅测体系。我们的可不雅测平台覆盖了大年夜量体系与练习指标,即便前面的机制漏掉了问题,也可以在这里经由过程指标异常检测和结合分析被捕获。此前我们也经由过程这一平台,快速定位过因为个别节点超温导致的异常问题,并进一步追溯到散热层面的原因。

以上是我们做的一部分工作,在以前的时光里,我们积聚了很多经验,很多都落到来我们产品里。如今我们也在万卡级其余集群上做一些练习工作,这方面的经验以及积聚的内容我们分享给大年夜家,欲望对于后续想做大年夜范围练习的公司和机构有必定的借鉴意义。

感激大年夜家。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部