Xiaomi MiMO 大年夜模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步

9 阅读 0 评论 0 点赞

今日上午，在小米2025小米人车家全生态合作伙伴大年夜会上，Xiaomi MiMO大年夜模型负责人罗福莉完成入职后的小米首秀，并正式宣布和开源最新MoE大年夜模型MiMo-V2-Flash。

来源：https://weibo.com/2194035935/QiO8H8AOE

罗福莉同步在社交媒体宣布了对MiMo-V2-Flash的介绍：

MiMo-V2-Flash 已正式上线。这只是我们 AGI 路线图中的第二步，但我想把一些真正产生决定性后果的工程选择顺手记下来。

架构：

我们最终采取了 Hybrid SWA。它足够简单、足够优雅，并且在内部基准测试中，在长高低文推理上明显优于其他线性留意力（Linear Attention）变体。别的，固定 KV cache 与现有基本举措措施的兼容性要友爱得多。
备注：窗口大年夜小 128 是那个“甜点值”（512 反而会拉低机能）；sink values 是弗成让步的，切切别省略。

MTP（Multi-Token Prediction）：

这一点在高效 RL 中被严重低估了。除了第一层以外，MTP 实际上只须要极少的微调，就能达到很高的 accept length。应用 3 层 MTP 时，我们在编程义务中看到了 accept length 大年夜于 3，以及约 2.5 倍的速度晋升。
它根本上解决了小 batch 的 src="https://oscimg.oschina.net/oscnet/up-a3c2e9a71988231e9f5ffd6024f841c08a2.png">

点赞(0) 打赏

本文分类：互联网
本文标签：Xiaomi MiMO 大模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步
浏览次数：9 次浏览
发布日期：2025-12-17 14:46:39
本文链接：https://fqpy.com/index.php/internet/1147

上一篇 > 刘方明传授：即便没有海外GPU，也能训出国产大年夜模型丨GAIR 2025
下一篇 > 万宁宣布封闭内地所有门店

评论列表共有 0 条评论

暂无评论

Xiaomi MiMO 大年夜模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步

Xiaomi MiMO 大年夜模型负责人罗福莉：MiMo-V2-Flash 是 AGI 路线图中的第二步

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复