让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
文章摘要
【关 键 词】 视频推理、内生智能、时序定位、视觉描述、强化学习
在视频理解领域,多模态大语言模型(MLLM)面临的核心挑战在于如何突破静态图像处理的局限,实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具的过度依赖,导致模型无法自主处理视频中的时序依赖与复杂叙事逻辑。针对这一痛点,小红书研究团队提出的Video-Thinker范式通过创新性的内生能力设计,实现了视频推理领域的突破性进展。
该研究的核心创新在于构建了自主时序导航与视觉线索提取的内生机制。通过将时序定位(Grounding)和视觉描述(Captioning)能力直接植入模型的思维链(CoT),Video-Thinker使模型能够在推理过程中动态确定关键帧并提取相关视觉证据。这种内生能力的关键支撑是团队精心构建的Video-Thinker-10K数据集,该数据集采用独特的”后见之明验证”机制确保数据质量,每条样本都包含精确的时间标注、视觉描述和逻辑推导的三元组结构。
在训练策略上,研究采用了监督微调与强化学习协同的双阶段方法。监督微调阶段建立模型的结构化思维范式,强制其遵循”定位-感知-推理”的标准流程;随后通过组相对策略优化(GRPO)激发模型的自主探索能力。这种训练方式使模型涌现出类似人类的元认知特征,能够对初步生成的中间结果进行自我质疑与修正,形成动态的内部反馈机制。
实验数据验证了该方法的显著优势。在Video-Holmes等六个高难度视频推理基准上,仅7B参数的Video-Thinker模型平均准确率超越现有基线4.68-11.44个百分点。特别值得注意的是,在时序定位任务中,模型的mIoU指标达到48.22%,相比基础模型提升75.5%;在视觉描述质量上三大指标平均提升31.2%。消融实验进一步证实,内生思维链方案显著优于外挂工具的组合方式,在Video-Holmes任务上比最优外部工具方案提升4.2%的准确率。
这项研究的突破性体现在三个方面:首先,证明了视频推理能力可通过精准的内生能力培养实现,而非依赖参数规模;其次,开创了”定位-描述-推理”一体化的视频处理新范式;最后,为MLLM处理复杂时序信息提供了可扩展的框架。这种技术路径不仅为视频理解领域树立了新标杆,更为安防监控、智能教育等实际应用场景提供了更高效的解决方案,标志着AI系统在动态视觉理解方面迈出了关键一步。
原文和模型
【原文链接】 阅读原文 [ 5400字 | 22分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




