ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

 

文章摘要


【关 键 词】 主动交互多模态大模型强化学习训练PAUC评估视频问答

本文系统性地介绍了视频多模态大模型实现“主动交互”的最新研究进展,聚焦于北京大学王选计算机研究所发布的ProactiveVideoQA与MMDuet2两项关键工作。核心目标是使模型在视频播放过程中自主决策何时发起回复,而非被动等待用户提问,从而构建更自然、及时的交互体验。ProactiveVideoQA作为首个专门评估该能力的综合基准,其三大特性——多轮开放式问答、多任务多模态覆盖(含网络视频、第一人称视角、电视剧、监控视频等四类)、以及提出“Proactive Area Under Curve”(PAUC)指标——为评估主动交互效果提供了量化依据。PAUC通过整合回复时机与内容准确性的“时间-质量”曲线面积进行综合衡量,确保模型既要在关键节点及时响应,又需保证内容正确,避免盲目高频回复而无实质提升。

MMDuet2则基于该基准提出端到端训练方案,实现SOTA性能。其核心创新在于无需精确回复时间标注的多轮强化学习训练:首先构建含5.2万条数据的主动交互对话集,按问题数量分为1QnA(单问题多回答)和nQnA(多问题连续响应)两类;随后采用SFT+RL两阶段策略,在监督微调阶段保持模型基础视频理解能力;进入强化学习阶段时,使用GRPO算法并设计复合奖励函数,以PAUC为主激励,并引入惩罚重复、错位及冗余前缀项以优化决策质量。该方法显著缓解了纯监督学习导致的回复延迟与低响应率问题,使模型能自适应判断最优回复时刻

实验结果表明,MMDuet2在ProactiveVideoQA多个子任务上达到领先水平,尤其在减少回复重复率方面优势明显,同时在传统离线视频基准(如Video-MME、LongVideoBench)上表现稳定,证明未损害模型基础能力。此外,帧采样密度对训练与推理影响各异:SFT需较稀疏采样(2秒间隔)避免过拟合不回复模式,推理阶段采用1秒密集采样可提前捕捉回复窗口,极大提升PAUC得分;而RL训练本身具备良好鲁棒性,允许灵活适配不同帧速。

本研究标志着从“用户驱动”向“AI主动”的范式转变,未来计划扩展至特定领域(如医疗监控、游戏辅助),构建更具场景适配性的主动交互模型。该项目由王越千主导,张辉帅与赵东岩指导,体现学术界在智能交互领域的前沿探索。

原文和模型


【原文链接】 阅读原文 [ 3773字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...