把 GPT-4o 拉下神坛!星源智联合北大推出 RoboAgent,让 3B VLM 在未知场景跑出 94% 成功率

AI-Agent1小时前发布 ai-front
51 0 0
把 GPT-4o 拉下神坛!星源智联合北大推出 RoboAgent,让 3B VLM 在未知场景跑出 94% 成功率

 

文章摘要


【关 键 词】 具身智能任务规划视觉语言大模型机器人

当前视觉语言模型在处理真实环境中的具身任务时,常常面临多轮交互、长程推理以及奖励信号稀疏等实操困境。为解决这一难题,北京大学与星源智团队共同提出了名为RoboAgent的具身任务规划方案,其核心论文已成功入选CVPR 2026。该方案采用能力驱动的路径规划,有效提升了模型在复杂家庭环境中的任务执行能力。

RoboAgent的核心创新在于将复杂的规划任务拆解为一系列视觉语言子问题,定义了探索引导、物体定位、场景描述、动作解码和经验总结五个基础能力模块。所有模块均由同一个视觉语言模型实现,不依赖任何外部工具,实现了端到端的可训练性。这种设计使得模型能够根据常识推断目标位置,进行开放词汇检测,并在发生错误时分析失败原因,从而形成可监督的能力链。

在模型训练方面,研发团队设计了一套三阶段路径规划。第一阶段利用专家轨迹进行有监督微调,第二阶段利用模拟器内部信息构建纠正性监督使模型学会自我修正,第三阶段引入专家诱导策略优化算法进行策略优化。这种从模仿到自我纠错再到专家引导的训练机制,充分利用了模拟器的特权信息,提供了高质量的监督信号。

实验结果表明,经过微调的3B参数模型在多个未见过的场景和指令基准测试中表现优异。该模型在多项视觉与文本基准上的平均成功率大幅超越了现有的7B参数模型以及GPT-4o,展现出强大的跨场景与跨模态泛化能力。这一结果证明,现代视觉语言模型本身已具备处理具身推理的能力,关键在于构建合适的调用机制。RoboAgent提供的端到端能力调用机制,为长程机器人规划提供了一种极具潜力的能力驱动架构范式。

原文和模型


【原文链接】 阅读原文 [ 1943字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆

© 版权声明
xunfeiagent

相关文章

trae

暂无评论

暂无评论...