把 GPT-4o 拉下神坛！星源智联合北大推出 RoboAgent，让 3B VLM 在未知场景跑出 94% 成功率

51 0 0

文章摘要

当前视觉语言模型在处理真实环境中的具身任务时，常常面临多轮交互、长程推理以及奖励信号稀疏等实操困境。为解决这一难题，北京大学与星源智团队共同提出了名为RoboAgent的具身任务规划方案，其核心论文已成功入选CVPR 2026。该方案采用能力驱动的路径规划，有效提升了模型在复杂家庭环境中的任务执行能力。

RoboAgent的核心创新在于将复杂的规划任务拆解为一系列视觉语言子问题，定义了探索引导、物体定位、场景描述、动作解码和经验总结五个基础能力模块。所有模块均由同一个视觉语言模型实现，不依赖任何外部工具，实现了端到端的可训练性。这种设计使得模型能够根据常识推断目标位置，进行开放词汇检测，并在发生错误时分析失败原因，从而形成可监督的能力链。

在模型训练方面，研发团队设计了一套三阶段路径规划。第一阶段利用专家轨迹进行有监督微调，第二阶段利用模拟器内部信息构建纠正性监督使模型学会自我修正，第三阶段引入专家诱导策略优化算法进行策略优化。这种从模仿到自我纠错再到专家引导的训练机制，充分利用了模拟器的特权信息，提供了高质量的监督信号。

实验结果表明，经过微调的3B参数模型在多个未见过的场景和指令基准测试中表现优异。该模型在多项视觉与文本基准上的平均成功率大幅超越了现有的7B参数模型以及GPT-4o，展现出强大的跨场景与跨模态泛化能力。这一结果证明，现代视觉语言模型本身已具备处理具身推理的能力，关键在于构建合适的调用机制。RoboAgent提供的端到端能力调用机制，为长程机器人规划提供了一种极具潜力的能力驱动架构范式。