除科研工作外,严肃玉传授也是 IEEE 和中国计算机学会(CCF)的高等会员,并多次担负 HPCA、ISCA、MICRO、IJCAI、ISPASS 等国际会议的技巧法度榜样委员会委员或审稿人,经久介入相干范畴的学术评审与社区扶植。

模型范围赓续增大年夜、高低文持续拉长,再加上 RAG、MoE 等新用法的引入,使得延迟、吞吐和能耗不再只是“调一调参数”的问题,而是直接影响体系架构和算力成本的核心挑衅。

环绕这些问题,来自中国科学院计算所的严肃玉团队,结合中国电信云计算研究院、浙江实验室和北京大年夜学的研究者,在论文《A Systematic Characterization of LLM Inference>计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

论文链接:https://arxiv.org/pdf/2512.01644v1

一次对大年夜模型推理机能的体系性拆解

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

严肃玉团队的这项工作经由过程大年夜量有组织的实验,体系地总结了大年夜说话模型在推理阶段的机能规律,而不是逗留在零碎的经验不雅察上。研究团队发明,LLM 的推理过程在本质上可以分成两个完全不合的阶段,并且这种差别并不是靠优化就能清除的。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

具体来说,第一个阶段是 Prefill 阶段,重要义务是一次性处理用户输入的 prompt。这个阶段可以并行履行,核心计算是大年夜范围矩阵乘法,是以计算量大年夜、算得很满,GPU 的计算单位应用率很高,整体机能重要受限于算力本身。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

第二个阶段是 Decode 阶段,用来逐个生成输出 token。因为生成过程是一步一步进行的,每一步都须要拜访已经缓存的高低文信息(KV Cache),实际计算量不大年夜,但内存拜访异常频繁,是以机能瓶颈从算力转移到了内存带宽和拜访延迟上。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

跟着大年夜说话模型逐渐走向真实应用,推理阶段的机能问题正在成为制约落地的关键身分。

在此基本上,论文进一步指出,推理过程中到底是 Prefill 慢照样 Decode 慢,并不是固定的,而是取决于具体的输入和输出情况。当输入较短时,固然每一步 Decode 的计算不多,但须要履行很多步,是以 Decode 往往成为重要耗时部分。

而当输入变长时,Prefill 阶段须要处理的 token 数敏捷增长,其计算量增长更快,在跨越某个长度之后就会反过来成为整体延迟的重要来源。这种从 Decode 主导到 Prefill 主导的改变解释,机能瓶颈更多是由工作负载决定的,而不是模型本身生成慢在哪。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

假如进一步拆到模型内部的算子层面,研究团队发明瓶颈同样不是固定的。在常见的高低文长度下,Prefill 阶段的重要时光往往花在前馈收集(FFN)上,但在高低文特别长的情况下,因为留意力计算的复杂度增长更快,Attention 会逐渐成为重要瓶颈。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

Decode 阶段的情况则和模型范围有关:对于较小的模型,频繁拜访 KV Cache 的 Attention 更轻易成为瓶颈;而对于大年夜模型,因为前馈收集权重更大年夜,FFN 的内存加载成本反而更凸起。这解释,纯真地说 Attention 是瓶颈或 FFN 是瓶颈都是不精确的,必须结合所处阶段、高低文长度和模型范围来断定。雷峰网

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

在机能可猜测性方面,论文发明 Prefill 阶段的行动非惯例律。它的履行时光几乎只由真正须要计算的输入 token 数量决定,并且二者之间出现异常稳定的线性关系。这意味着,只要知道输入长度懈弛存射中情况,就可以比较精确地猜测 Prefill 的延迟,这对体系调剂和资本筹划异常有效。比拟之下,Decode 阶段因为是慢慢生成,并且受到采样和串行依附的影响,机能波动更大年夜,也更难提前猜测。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

在能耗分析中,论文给出了一个异常直不雅但重要的结论:全部推理过程消费的能量,几乎全部来自 Decode 阶段。输入有多长,对总能耗影响很小,而输出身成了若干 token,几乎直接决定了能耗大年夜小。同时,模型参数越多,总能耗也会随之增长。这解释,在真实体系中,假如想要降低推理能耗,限制输出长度往往比优化 Prefill 更有效。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

在多 GPU 扩大实验中,研究团队发明并行化并不是在所有情况下都有效。Prefill 阶段因为计算量大年夜,把计算分摊到多张 GPU 上平日能带来收益,但 Decode 阶段每一步计算都很小,多 GPU 之间的通信和同步反而会成为包袱,导致机能晋升不明显甚至变慢。是以,在 Decode 为主的场景下,应用单 GPU 或较轻量的流水并行往往更合适,这也打破了GPU 越多越快的直觉。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

对于 RAG 工作流,研究团队发明跟着外部常识范围变大年夜,体系瓶颈会从 GPU 推理转移到 CPU 侧的检索和内存拜访上,形成新的机能限制。尽管推理流程变得加倍复杂,但 Prefill 和 Decode 在机能上的根本差别依然存在,仍然是懂得整体行动的关键。

最后,论文还分析了新的推理范式。对于 MoE 模型,推理速度重要取决于每次实际介入计算的参数范围,而不是模型的总参数量,这带来了明显的机能优势,但同时,在 Decode 阶段会额外引入专家选择和调剂的开销,使机能表示加倍复杂。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

面向体系懂得的大年夜模型推理实验框架

为了让结论更完全、也更轻易懂得,这篇论文在实验设计上采取了一种由浅入深的分析思路。研究团队并不是一开端就研究底层硬件细节,而是先不雅察整体推理机能表示,再慢慢深刻到 GPU 的履行和存储行动,最后把获得的规律放回到真实体系和新型推理场景中进行验证。雷峰网("大众,"号:雷峰网)

在实验平台方面,论文同时应用了数据中间级的 GPU(A100)和边沿设备上的 GPU(Jetson AGX Orin)。如许做的目标,是考验前面总结出的机能规律是否只在高端办事器上成立,照样在算力和内存前提更受限的设备上同样实用。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

模型选择上,研究团队覆盖了多种主流的 dense 模型(从 7B 到 32B),同时还引入了一个具有代表性的 MoE 模型,以不雅察不合参数范围和不合架构设计对推理机能的影响。为了包管比较公平,所有实验都在同一套推理框架和雷同精度设置下进行,尽量削减实现细节带来的干扰。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

在工作负载设计上,研究团队并没有简单地跑几组固定 benchmark,而是有针对性地设计了多种输入和输出组合。例如,有的义务输入短、输出长,有的输入长、输出短,还有真实对话数据和可控的合成数据。如许的设计是为了有意识地制造 Prefill 占主导或 Decode 占主导的不合场景,从而验证两阶段在不合前提下是否始终表示出不合的机能特点。

在机能分析办法上,论文采取了分层分析的方法。起首在整体层面上,测量端到端的延迟、吞吐量和能耗,建立对体系行动的直不雅熟悉;接着在阶段和算子层面,分析 Prefill 和 Decode 各自占用了若干时光,以及不合算子在个中的感化;最后深刻到硬件层面,经由过程 Roofline 模型、warp 逗留分析,以及缓存射中率和内存带宽应用情况,来断定机能毕竟是受限于计算照样受限于内存。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

在能耗分析中,研究人员经由过程高频功率采样并扣除余暇功耗的方法,尽量包管测量成果的精确性。在涉及 RAG 的实验中,还额外应用了 CPU 侧的机能分析对象,专门分析检索阶段的瓶颈来源。

当问题被看清,优化才有偏向

这篇论文的意义不在于提出某一种新的优化技能,而在于建立了一套同一、可解释的大年夜模型推理机能认知框架。它初次将 Prefill 与 Decode 的阶段差别晋升为体系级根本规律,并证实这一规律在不合模型范围、硬件平台和新兴推理范式下均成立。

从工程角度看,论文改正了多个经久存在的直觉性误会,例如Attention 永远是瓶颈、多 GPU 必定更快、Prefill 是重要能耗来源等,并给出了明白的反例和机制解释。这些结论对实际推理办事的安排策略、资本设备和成本控制具有直接指导意义。

从体系研究角度看,这篇内容为后续工作供给了清楚的问题分化方法:优化 Prefill 和优化 Decode 不该混为一谈,而应针对各自的根本瓶颈分别设计机制。这一思惟对调剂器设计、并行策略选择以及新硬件特点应用都具有启发生发火用。

从将来成长看,论文指出了 MoE 和 RAG 等新范式若何重塑瓶颈地位,提示研究者在模型和体系协同设计时须要存眷路由开销、内存局部性和 CPU–GPU 协同,而不仅仅是算力范围。

总体而言,这是一篇以实验为基本、以解释为核心、以体系认知为目标的论文,其价值在于答复了“为什么 LLM 推理会如许表示”,而不仅是“若何让它更快一点”。

工作背后的研究者

本文通信作者为 中国科学院计算技巧研究所的严肃玉传授。他重要从事计算机体系构造相干研究,研究偏向涵盖图机械进修、设计空间摸索以及复杂计算体系的机能分析等问题。

经由过程这种从“看现象”到“找原因”的慢慢分析过程,论文避免了只凭经验断定或简单相干性分析下结论的问题,使得每一个宏不雅层面的机能现象,都能在底层硬件履行机制上找到清楚的解释。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

参考链接:https://mingyuyan-ict.github.io/MingyuYan-ICT/

在学术研究方面,严肃玉传授已在多个国际顶级会议和期刊上揭橥近 20 篇论文,相干成果揭橥于 MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS 等重要学术平台,覆盖体系构造、体系与应用交叉等多个研究范畴。

在学术培养与科研经历方面,他于中国科学院大年夜学获得博士学位,并曾赴美国加州大年夜学圣塔芭芭拉分校进行结合培养。其博士论文曾获得中国计算机学会优良博士论文奖。此外,他还入选北京市科技新星筹划、中国科学院青年立异促进会,并主持或介入中国科学院青年团队项目等科研筹划。

总体而言,严肃玉传授经久致力于从体系视角懂得复杂计算负载在硬件平台上的履行行动,强调经由过程体系性实验和硬件行动分析揭示机能瓶颈的形成机理,其研究成果兼具理论深度与工程实践价值。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部