港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务

港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务

 

文章摘要


【关 键 词】 多模态统一模型视觉推理强化学习任务泛化

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型,旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界的视觉理解系统需要同时处理问答、动态视频理解、事件定位、目标跟踪、描述生成以及复杂逻辑推理等多种任务,这要求模型具备跨任务和跨模态的综合能力。现有方法多依赖任务专化模型,难以实现不同视觉任务间的协同与知识共享,导致系统复杂度高且综合推理能力受限。

OneThinker采用了一种激进的设计思路,将图像与视频中的多种任务统一抽象为“先推理、后作答”的通用形式。该模型通过多任务强化学习进行整体优化,不仅关注单一基准的性能提升,更致力于验证统一推理机制能否让一个模型同时具备多种视觉理解与推理能力而不牺牲单项任务表现。研究团队构建了大规模多任务数据集,引入改进的强化学习算法,并在图像与视频两种模态上进行了系统评测。

实验结果显示,OneThinker在绝大多数视觉理解任务中均优于基础模型和现有方法,表现出稳定的性能优势。在图像问答任务中,该模型在涉及数学推理、科学推理和多步骤逻辑推断的问题上优势尤为突出;在视频问答任务中,其长视频推理和视频数学推理能力表现突出;在图像和视频描述任务中,生成文本的准确性、完整性和语言质量均有明显提升。此外,在时间定位、空间定位、目标跟踪和分割等任务中,OneThinker也展现出较强的综合建模能力。

研究团队构建的大规模多任务数据集覆盖了图像和视频两种模态的多种视觉理解任务。训练过程中,所有任务均被统一表示为“先推理、后作答”的形式,便于联合优化。在完成监督微调后,引入强化学习进一步提升模型的推理能力。针对多任务训练中的奖励分布差异问题,研究提出了一种基于指数滑动平均的归一化方法,有效平衡了各类任务的优化信号。

实验结果验证了统一多模态推理模型在性能层面的可行性和有效性。这种设计范式不仅减少了重复建模的需求,更贴近自动驾驶、智能监控等真实场景的实际需求。研究表明,多模态通用模型的发展应关注任务建模方式的统一、推理机制的合理设计以及训练策略的协同优化,而不仅仅是模型规模的扩展。这一工作为后续多模态通用智能系统的研究提供了有价值的参考。

原文和模型


【原文链接】 阅读原文 [ 3099字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...