在宣布多款自研大年夜模型之后,小米又交出了一份重要成果。
小米具身智能团队正式宣布了首篇论文,提出同一具身智能与主动驾驶的新模型 MiMo-Embodied。模型在 17 项具身义务和 12 项主动驾驶义务中取得领先表示,更重要的是,它从工程层面展示了这两个经久分别的技巧范畴可以在同一框架下实现同一建模。
小米智驾团队的郝孝帅是论文的核心第一作者,小米智驾团队首席科学家陈龙博士担负 project leader。
该模型是陈龙团队的首个重大年夜成果。因为以罗福莉团队之前宣布的MiMo-VL作为基座进行了continue-train,这也是文章作者栏中有“罗福莉”的原因。此前有媒体曾误会为罗福莉首个小米成果,也激发了当事人发同伙圈澄清事实。

这一问题经久困扰多场景智能体的研究,而 MiMo-Embodied 恰是小米对这一偏向给出的初次体系回应。

多义务管辖式领先
整体成果异常凸起,可以用一句话概括:MiMo-Embodied 在 17 个具身智能义务和 12 个主动驾驶义务中,都取得了周全领先的表示,在多半关键基准上都处于第一。

其实可供性揣摸的测试重要评估模型是否可以或许精确懂得物体的应用方法。例如辨认物体上可操作的部位、精确指出指定地位、断定场景中哪些区域可以放置物品,或在多个类似物体中找到与描述相符的那一个。
在这类义务中,MiMo-Embodied 在五个主流基准上均表示凸起。在 RoboRefIt 中,它可以从一组高度类似的物体中准肯定位目标;在 Part-Afford 中,它可以或许辨认物体的可操作部件;在 VABench-Point 中,它能根据文字描述精确给出坐标,整体表示达到当前最优程度。

空间懂得相干义务请求模型对场景中的空间关系有精确把握,包含断定物体之间的相对方位、在图像中定位对象、输出精确坐标,或答复涉及空间推理的文字问题。雷峰网("大众,"号:雷峰网)
在九个代表性测试中,MiMo-Embodied 在 CV-Bench、RoboSpatial、RefSpatial 与 CRPE-relation 等核心基准上取得最高分,在 EmbSpatial 与 SAT 等义务中也保持在第一梯队,表现出扎实的空间推理才能。

在主动驾驶方面,实验同样覆盖三个核心模块:场景感知、行动猜测和驾驶筹划。
场景感知的测试请求模型看清路上的车辆、行人和交通标记,描述场景内容,辨认潜在风险,并输出关键目标的地位。MiMo-Embodied 在 CODA-LM 等复杂场景懂得义务中表示与专用模型相当甚至更好,在 DRAMA 中对关键物体的定位精度最高,在 OmniDrive 与 MME-RealWorld 中也保持领先。

而驾驶筹划则请求模型给出车辆应当采取的动作,并解释其决定计划根据,同时包管遵守交通规矩、避免风险。MiMo-Embodied 在多个核心基准上取得领先,包含在 LingoQA 中精确解释驾驶行动,在 DriveLM 中从多视角场景推导合理筹划,在 MAPLM 中懂得门路构造介入决定计划,在 BDD-X 中清楚解释驾驶来由,整体表示甚至跨越一些专门为主动驾驶设计的模型。

从单域到跨域的四阶段练习框架
实验成果之外,团队还构建了一套由四个阶段构成的练习流程,使模型的才能从最初的具身懂得,慢慢拓展至主动驾驶决定计划,并进一步成长出可解释的推理才能与更高的输出精度。
值得留意的是,这四个阶段均以罗福莉所属的 Xiaomi LLM-Core(大年夜说话核心团队)推出的 MiMo-VL 作为同一的基本模型展开。全部练习体系以才能逐级递进为构造,每个阶段都为下一阶段奠定才能基本,从而形成一套持续且可扩大的模型演进路径。
在第一阶段中,模型重要接收具身智能相干的监督练习,练习数据覆盖可供性揣摸、义务筹划和空间懂得等义务。
这些数据让模型可以或许先控制若何看懂物体的构造、辨认可操作部位、懂得场景中的空间关系,并能对一段义务过程进行精确的下一步揣摸。经由这一阶段,模型具备了根本的空间推理才能、初步的义务筹划才能,以及对可供性的感知与表达才能。
第二阶段专门引入主动驾驶范畴的监督练习。模型开端进修处理复杂的交通场景,练习数据包含多视角相机画面、驾驶视频、主动驾驶问答、关键目标的坐标标注以及与门路构造相干的常识。
经由过程这些练习,模型可以或许懂得门路情况、读取交通元素、猜测其他交通介入者的行动,并给出相符规矩的驾驶筹划。此阶段使模型控制动态场景分析、意图猜测以及驾驶决定计划等关键主动驾驶才能。
第三阶段参加链式思维练习,也就是让模型进修“把推理过程说出来”。练习数据含有明白的推理步调,模型在此阶段被引导按照“不雅察场景→分析要素→提出候选→给出来由→得出结论”的次序组织答复。
成果是模型开端可以或许自洽地解释本身的断定逻辑,不论是在具身义务照样在驾驶义务中,都能给出清楚、可读的推理链条,明显晋升输出的透明度与一致性。


最后在第四阶段进行强化进修微调,目标在于进一步晋升模型在细节层面的精确度。例如,多选题会根据是否答对赐与嘉奖;定位类义务经由过程猜测区域与真实区域的 IoU 分数供给更精细的反馈;推理答复的情势会经由过程格局模板进行严格束缚。
经由过程这些规矩化的嘉奖机制,模型在坐标定位精度、推理质量及细节断定才能上都有明显加强,最终成为一个在多义务场景中都能稳定发挥的同一具身模型。

打通两个世界的第一步
这项工作的价值不只在于模型机能领先,而在于它解决了经久困扰业界的一道核心难题:机械人和主动驾驶本应属于两个完全不合的世界,却第一次被放进了同一个大年夜脑里。
这篇论文存眷的核心问题是:同一套视觉说话模型,可否在面对“抓取物体”与“驾驶车辆”这两类差别极大年夜的义务时,仍保持一致的懂得方法和决定计划逻辑。
以前的模型要么专门做室内具身义务,要么专门做主动驾驶,两个偏向无论是场景、感知照样动作都完全割裂,彼此几乎没有可共享的才能。
但 MiMo-Embodied 的实验成果证实,底层的关键智能才能,空间懂得、因果推理、动态场景分析,其实可以跨域迁徙。机械人懂得桌面物体的方法,可以赞助汽车懂得路口;汽车处理交通动态的才能,也能让机械人更好地筹划义务步调。雷峰网
这意味着“智能体”的界线第一次被打通。
除此之外,为了验证这种跨场景融合是否真正可行,团队还专门构建了一个前所未有的大年夜范围评测体系:17 个具身智能基准加上 12 个主动驾驶基准,覆盖可供性、筹划、空间懂得,以及感知、猜测、驾驶决定计划等多维才能。
模型在如斯复杂而周全的体系下依旧保持稳定领先,证实它不是“弱项补短”,而是实其实在具备跨范畴的泛化智能。这不仅验证了模型本身,也相当于是替全部行业点亮了“跨域评测”的新标准。

更重要的是,MiMo-Embodied 供给了一种可复制的范式。论文提出的四阶段练习路线:先学具身,再学驾驶,再叠加链式推理,最后用强化进修抠细节,实际上就是一条通向“通器具身智能体”的练习路径。
它告诉行业:智能体才能并不必须分散在不合的模型中,而可以像课程一样逐层积聚,让同一模型在多种复杂场景中都保持稳定表示。
更可贵的是,这不是一个机能堪堪够用的概念模型,而是在 17 个具身测试 + 12 个主动驾驶测试里都能打、还能赢的大年夜模型,连不少闭源私有模型都被它压了一头。
而从家当角度看,这更像一次“开锁”的动作。小米把跨域智能的这把钥匙直接扔给了开源社区,意味着将来即就是小团队,也能在这套基本上做改革,做出既能开车又能操作机械臂的多场景智能体。
电动车越来越像“带轮子的智能体”,机械人越来越像“带四肢的智能体”,而 MiMo-Embodied 的出现,让这两条本来平行的技巧路线第一次有机会汇流。
这一工作所展示的,早已不只是一种新的模型形态,而是向行业明白证实:主动驾驶与具身智能的才能可以在同一个别系中进行练习、评测和集成安排。这种同一方法为将来智能体的成长打开了新的偏向,可能会从新塑造多场景智能体系的整体格局。
首篇论文背后的团队声威
这是小米具身智能团队宣布的首篇论文,由小米智驾团队的郝孝帅担负第一作者,项目负责人则是小米智驾团队首席科学家陈龙。

郝孝帅本年 8 月参加小米智驾团队。博士卒业于中国科学院大年夜学信息工程研究所,现任小米汽车主动驾驶与具身智能算法专家,研究偏向为主动驾驶感知和具身智能基座大年夜模型。
在博士时代,他曾在亚马逊练习,师从李沐师长教师。在北京人工智能研究院担负研究员时代,深度介入了 Robobrain 1.0 和 Robobrain 2.0 等重大年夜项目。结合github等公开信息,自从本年8月参加小米以来,MiMo-Embodied是郝孝帅初次以第一核心成员身份做出的重要供献,也是首个主动驾驶与具身智能同一基座大年夜模型 。
行动猜测请求模型可以或许推想其他交通介入者可能采取的动作,例如车辆是否会变道、是否会让行,或从多视角画面中懂得整体交通流动趋势。MiMo-Embodied 在 MME-RealWorld 与 DriveLM 等基准中表示稳定且领先,显示出对动态交通场景的优胜懂得才能。
这篇论文中重要环绕两个重要偏向进行了体系实验:具身智能与主动驾驶。
在具身智能方面,实验评测涵盖可供性揣摸、义务筹划和空间懂得三个才能。
除此之外,郝孝帅还曾在 Information Fusion、NeurIPS、ICLR、CVPR、ECCV、AAAI、ICRA 等顶级会议与期刊上揭橥论文五十余篇,并在 CVPR、ICCV 等国际比赛中取得了多次前三的成就,科研背景十分扎实。

项目负责人陈龙博士同样在本年参加小米,担负小米汽车 Principal Scientist,主动驾驶与机械人部 VLA 负责人,他曾任职于端到端主动驾驶独角兽公司 Wayve,担负 Staff Scientist,带领团队成功研发并安排了全球首个上车的视觉说话主动驾驶体系 Lingo,被 Fortune,Financial Times,MIT Technology Review 等国际媒体报导。
此前在 Lyft 主动驾驶部分负责基于众包数据的深度进修筹划模型研发工作陈龙博士凭借在帮助驾驶范畴引入视觉-说话-行动(VLA)模型的卓越工作,成功入选《麻省理工科技评论》2025 年度亚太区“ 35 岁以下科技立异 35 人”。

义务筹划方面的测试存眷模型根据情境揣摸下一步行动的才能。例如根据视频断定义务的后续步调、根据目标从多个候选动作中选择精确的操作,或根据已有步调揣摸接下来可能产生的事宜。MiMo-Embodied 在 RoboVQA、Cosmos-Reason1 和 EgoPlan2 等基准中均处于领先地位,解释其在行动推理与义务构造懂得方面具有较强的综合才能。
参加小米后,陈龙开端带领 VLA 团队 推动端到端主动驾驶大年夜模型的技巧路线,进一步晋升模型在复杂交通场景中的泛化、推理和解释才能。他与叶航军、陈光、王乃岩合营构成小米智驾团队的核心技巧力量,构成了当前小米智驾体系的关键架构班底。
作者主页:
https://haoxiaoshuai.github.io/homepage/
https://www.linkedin.com/in/long-chen-in/
论文链接:
https://arxiv.org/abs/2511.16518
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

发表评论 取消回复