ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

AIGC动态7小时前发布 almosthuman2014

60 0 0

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

文章摘要

【关键词】 主动交互、多模态大模型、强化学习训练、PAUC评估、视频问答

本文系统性地介绍了视频多模态大模型实现“主动交互”的最新研究进展，聚焦于北京大学王选计算机研究所发布的ProactiveVideoQA与MMDuet2两项关键工作。核心目标是使模型在视频播放过程中自主决策何时发起回复，而非被动等待用户提问，从而构建更自然、及时的交互体验。ProactiveVideoQA作为首个专门评估该能力的综合基准，其三大特性——多轮开放式问答、多任务多模态覆盖（含网络视频、第一人称视角、电视剧、监控视频等四类）、以及提出“Proactive Area Under Curve”（PAUC）指标——为评估主动交互效果提供了量化依据。PAUC通过整合回复时机与内容准确性的“时间-质量”曲线面积进行综合衡量，确保模型既要在关键节点及时响应，又需保证内容正确，避免盲目高频回复而无实质提升。

MMDuet2则基于该基准提出端到端训练方案，实现SOTA性能。其核心创新在于无需精确回复时间标注的多轮强化学习训练：首先构建含5.2万条数据的主动交互对话集，按问题数量分为1QnA（单问题多回答）和nQnA（多问题连续响应）两类；随后采用SFT+RL两阶段策略，在监督微调阶段保持模型基础视频理解能力；进入强化学习阶段时，使用GRPO算法并设计复合奖励函数，以PAUC为主激励，并引入惩罚重复、错位及冗余前缀项以优化决策质量。该方法显著缓解了纯监督学习导致的回复延迟与低响应率问题，使模型能自适应判断最优回复时刻。

实验结果表明，MMDuet2在ProactiveVideoQA多个子任务上达到领先水平，尤其在减少回复重复率方面优势明显，同时在传统离线视频基准（如Video-MME、LongVideoBench）上表现稳定，证明未损害模型基础能力。此外，帧采样密度对训练与推理影响各异：SFT需较稀疏采样（2秒间隔）避免过拟合不回复模式，推理阶段采用1秒密集采样可提前捕捉回复窗口，极大提升PAUC得分；而RL训练本身具备良好鲁棒性，允许灵活适配不同帧速。

本研究标志着从“用户驱动”向“AI主动”的范式转变，未来计划扩展至特定领域（如医疗监控、游戏辅助），构建更具场景适配性的主动交互模型。该项目由王越千主导，张辉帅与赵东岩指导，体现学术界在智能交互领域的前沿探索。