邱锡鹏团队新作:让机器人学会「察言观色」

AIGC动态2小时前发布 aitechtalk
35 0 0
邱锡鹏团队新作:让机器人学会「察言观色」

 

文章摘要


【关 键 词】 具身智能多模态模型机器人交互意图识别跨模态推理

复旦大学、上海创智学院及新加坡国立大学研究团队近期发布的RoboOmni框架,突破了传统视觉-语言-动作(VLA)模型的局限,通过全模态整合实现了机器人对隐含意图的主动推理能力。该框架的核心创新在于将语音、环境音频和视觉观察统一到自回归模型中,形成”感知-思考-回应-执行”的闭环系统。研究显示,在家庭场景模拟测试中,机器人能准确识别孩子对橙汁的排斥情绪,并主动提议提供可乐,展现了超越显式指令的交互能力。

传统VLA模型长期受限于对显式指令的依赖,而人类日常交流中80%以上为隐式表达。为解决这一矛盾,团队构建了包含14万样本的OmniAction数据集,涵盖身份线索、情感暗示等六类情境指令。在OmniAction-LIBERO-Real基准测试中,RoboOmni以76.6%的成功率显著超越π(73.8%)、OpenVLA(40.1%)等基线模型,其端到端音频处理机制有效规避了ASR转录错误。技术实现上,模型采用224×224图像分辨率和16kHz音频采样率,在64块A100 GPU上进行了15,360小时的预训练。

研究团队提出的”情境智能”概念,强调复杂环境对智能涌现的关键作用。WidowX 250S机械臂实验证实,RoboOmni能通过跨模态上下文完成三重突破:识别花盆场景中的目标物体、主动发起确认对话、精准执行抓取动作。这种能力源于统一的标记空间设计,将动作生成与语音理解融入同一自回归框架。值得注意的是,框架整合了复旦大学邱锡鹏教授提出的”Context Scaling”理论,认为足够丰富的情境交互才是实现通用人工智能(AGI)的有效路径。

该研究的实践价值体现在三个方面:首次实现语音情感线索的实时解析、建立首个包含环境声音的机器人操作数据集、验证了跨模态指令对执行成功率的提升达36.5%。团队在真实场景测试中引入10名志愿者的语音样本,证明模型对重叠语音、模糊指代等复杂情境具备鲁棒性。这项成果标志着具身智能从”被动响应”迈向”主动共情”的新阶段,为服务机器人、智能家居等领域提供了可落地的技术方案。

原文和模型


【原文链接】 阅读原文 [ 3026字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...