想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下
文章摘要
【关 键 词】 机器人、春晚表演、具身智能、开源模型、物理推理
2026年春晚机器人表演包饺子的可能性较低,彩排信息显示机器人更可能承担托盘呈递等简单任务。包饺子涉及柔性物体操作和复杂动作序列,属于机器人领域的”图灵测试”级挑战,当前技术更集中于解决基础物理交互问题。阿里达摩院近期发布的RynnBrain项目聚焦于机器人底层认知能力,重点突破任务中断恢复、工具缺失应对等现实场景中的核心瓶颈。
RynnBrain通过时空记忆和物理空间推理的融合训练,在16项具身智能基准测试中达到领先水平。面对”三个面包、两个盘子”的约束条件,模型能推导出合理分配方案;在任务中断场景下,可准确记忆已完成步骤并恢复执行。该项目开源了7个模型,包括业界首个MoE具身基础模型RynnBrain-30B-A3B,该模型仅需3B激活参数即超越72B规模的Pelican-VL模型,实现了感知规划能力与动作响应的平衡。
通用大模型在物理世界面临显著局限。以包饺子场景为例,传统视觉语言模型虽能理解流程,但面对调料瓶倾倒、工具缺失等突发状况时,因缺乏连续空间感知和物理交互逻辑而陷入停滞。RynnBrain通过强制”边说边指”的推理机制,要求模型在生成语言指令时同步输出空间坐标,将抽象逻辑与具象环境绑定。其统一表征框架整合了时间维度、空间坐标与语义理解,使机器人能基于完整的三维世界模型进行决策。
达摩院通过RynnEC和RynnBrain两阶段研究构建物理认知基础。RynnEC赋予模型精确的空间感知能力,如判断物体尺寸与距离;RynnBrain则扩展出时空记忆功能,使机器人能追踪视野外物体位置。在RynnBrain Bench新基准测试中,其8B版本在20项具身任务上全面领先竞品,且保持基座模型的通用能力。MOE版本展现出惊人效率,3B激活参数即超越72B模型,微调后导航成功率比SOTA模型高出2%-3%。
行业当前存在VLA模型与认知优先两种技术路线的争论。达摩院选择先夯实基础能力,通过开源促进生态共建。RynnBrain既可作为操作规划基座,也能通过后训练适配具体场景,在数百样本微调后即超越Gemini 3 Pro的规划能力。团队同步推进视觉主导的RynnVLA路线,并通过RCP系统连接算法与实体机器人,最终目标是建立统一的具身智能基础设施,推动整个领域的协同进化。
原文和模型
【原文链接】 阅读原文 [ 3745字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★



