今日上午,在小米2025小米人车家全生态合作伙伴大年夜会上,Xiaomi MiMO大年夜模型负责人罗福莉完成入职后的小米首秀,并正式宣布和开源最新MoE大年夜模型MiMo-V2-Flash。

来源:https://weibo.com/2194035935/QiO8H8AOE

罗福莉同步在社交媒体宣布了对MiMo-V2-Flash的介绍:

MiMo-V2-Flash 已正式上线。这只是我们 AGI 路线图中的第二步,但我想把一些真正产生决定性后果的工程选择顺手记下来。

架构:

我们最终采取了 Hybrid SWA。它足够简单、足够优雅,并且在内部基准测试中,在长高低文推理上明显优于其他线性留意力(Linear Attention)变体。别的,固定 KV cache 与现有基本举措措施的兼容性要友爱得多。
备注:窗口大年夜小 128 是那个“甜点值”(512 反而会拉低机能);sink values 是弗成让步的,切切别省略。

MTP(Multi-Token Prediction):

这一点在高效 RL 中被严重低估了。除了第一层以外,MTP 实际上只须要极少的微调,就能达到很高的 accept length。应用 3 层 MTP 时,我们在编程义务中看到了 accept length 大年夜于 3,以及约 2.5 倍的速度晋升。
它根本上解决了小 batch 的 src="https://oscimg.oschina.net/oscnet/up-a3c2e9a71988231e9f5ffd6024f841c08a2.png">

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部