小米陈龙团队首作:统一具身与自动驾驶的开源模型
文章摘要
【关 键 词】 具身智能、自动驾驶、多任务模型、统一框架、跨域评测
小米具身智能团队发布了首篇论文,提出统一具身智能与自动驾驶的新模型MiMo-Embodied。该模型在17项具身任务和12项自动驾驶任务中取得领先表现,首次从工程层面证明这两个长期分离的技术领域可以在同一框架下实现统一建模。论文由小米智驾团队的郝孝帅担任第一作者,首席科学家陈龙博士担任项目负责人。
模型的核心突破在于验证了视觉语言模型能够同时处理”抓取物体”与”驾驶车辆”这两类差异极大的任务。在具身智能方面,MiMo-Embodied在可供性推断、任务规划和空间理解三个能力维度上表现突出。例如在RoboRefIt基准中准确定位目标物体,在RoboVQA等任务规划测试中展现优秀的行动推理能力,在九个空间理解测试中保持领先。自动驾驶方面,模型在场景感知、行为预测和驾驶规划三个核心模块同样表现优异,在CODA-LM等复杂场景理解任务中超越专用模型,在DriveLM等基准中显示出对动态交通场景的深刻理解。
研究团队构建了一套四阶段训练框架:第一阶段专注具身智能基础能力,第二阶段引入自动驾驶专项训练,第三阶段加入链式思维训练提升解释能力,第四阶段通过强化学习微调提高精度。整个过程以小米LLM-Core团队的MiMo-VL作为基础模型,形成连续可扩展的能力演进路径。这种训练范式为行业提供了一条通向”通用具身智能体”的可复制路径。
这项工作的重大意义在于首次打通了机器人和自动驾驶这两个长期割裂的智能体领域。实验证明底层的关键智能能力如空间理解、因果推理等可以跨域迁移。团队构建的29个基准评测体系不仅验证了模型性能,更为行业建立了跨域评测的新标准。从产业角度看,这种统一建模方式让小型团队也能开发多场景智能体,可能重塑未来智能系统的整体格局。
论文团队阵容强大,第一作者郝孝帅博士在自动驾驶感知和具身智能领域有深厚积累,项目负责人陈龙博士曾领导开发全球首个上车的视觉语言自动驾驶系统。这项成果标志着小米在智能体基础模型研发上取得重要突破,为多场景智能系统的统一发展开辟了新方向。
原文和模型
【原文链接】 阅读原文 [ 3690字 | 15分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



