计算所严肃玉团队新作: Attention 并非永远是瓶颈,多 GPU 并不必定更快 系统实验表明,模型推理分为计算受限的 Prefill 与内存受限的 Decode。 互联网 2025年12月22日 0 点赞 0 评论 54 浏览