马斯克的xAI坐拥55万张英伟达GPU加快卡应用率仅11%

23 阅读 0 评论 0 点赞

这一数字背后的含义十分直不雅：理论上可输出100份练习算力的硬件，实际仅能产出11份，尼科尔斯在备忘录中直白评价其“低得难堪”，并明白为团队设定了目标——将来几个月内将这一应用率拉升至50%。

据悉，xAI今朝拥有约55万颗NVIDIA GPU，涵盖H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代，但如斯宏大年夜的硬件安排范围，仍给市场留下了深刻印象。

须要指出的是，11%这个数字，并非指89%的GPU在完全闲置，而是衡量有效练习吞吐占硬件理论峰值算力比例的严苛指标。

与行业基准比拟，xAI的表示差距尤为明显。当前，临盆级大年夜模型练习的MFU平日保持在35%至45%之间，个中Meta和谷歌凭借经久积聚的深挚软件客栈，其GPU应用率分别可达约43%和46%；

此外，Lambda等机构分析指出，显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等，都是拖累MFU的体系性身分。

即便在以“低效”著称的GPT-3练习时代，MFU也能稳定在21%-26%之间。反不雅xAI的11%，不仅远低于当前行业主流程度，甚至不及AI算力成长史上的“古早”难堪时代。

值得一提的是，坐拥顶级算力却难以发挥价值， xAI 关键不在硬件，而在软件短板。

据悉，xAI一向照搬英伟达标准安排筹划，但软件客栈、并行策略和模型工程优化，远远跟不上硬件激进扩大速度。

具体来看，HBM显存读取速度远慢于计算芯片，导致芯片大年夜量时光空转等待数据；收集拓扑中的任何一处瓶颈，在数万张卡的同步请求下，都邑被急剧放大年夜。

值得留意的是，xAI 基建扩大堪称行业事业，其Colossus 超算仅 122天建成，GPU范围短时光内极速扩容，过快的硬件铺摊，也放大年夜了软件优化滞后的致命短板。

点赞(0) 打赏

暂无评论

马斯克的xAI坐拥55万张英伟达GPU加快卡 应用率仅11%