Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明

文章摘要
【关 键 词】 VLM、自博弈、零监督、多模态、AlphaGo
视觉语言模型(VLM)面临数据稀缺和人类知识天花板两大核心挑战。当前训练方法高度依赖人工标注数据和强化学习奖励设计,导致多模态标注成本高昂,且模型能力受限于人类已有知识边界。受AlphaGo自博弈技术启发,研究团队提出名为Vision-Zero的通用框架,旨在实现VLM的零监督训练。该框架通过模拟”谁是卧底”等社交推理游戏,使AI在自博弈过程中自动生成高复杂度推理数据,摆脱对人工标注的依赖。
框架设计包含三大创新点:首先,策略自博弈机制允许模型在游戏化环境中通过角色扮演(平民与卧底)生成复杂推理链条;其次,支持任意形式图片输入,从合成场景到真实世界图像均可作为训练素材;第三,迭代式自博弈策略优化算法(Iterative-SPO)通过自博弈与可验证奖励强化学习的交替训练,突破传统方法的性能瓶颈。实验数据显示,未使用任何标注数据的Vision-Zero在推理、图表问答等任务上超越有监督的SOTA方法,Qwen-7B模型在部分基准任务中性能提升达3%。
该研究成功将AlphaGo的自博弈思想从封闭棋类游戏拓展至开放多模态领域。通过精心设计的游戏规则,模型需在观察图片差异、生成线索、分析投票等环节持续提升视觉理解和逻辑推理能力。特别值得注意的是,双阶段交替训练策略有效解决了自博弈易陷入局部最优的难题——当线索阶段饱和时转向决策训练,反之亦然,形成持续的能力进化循环。在跨领域测试中,模型展现出显著的负迁移缓解能力,在保持视觉任务性能的同时,图表/OCR任务平均仅下降0.2%,部分任务甚至出现性能提升。
研究团队验证了框架在三种典型场景的适用性:使用CLEVR合成图像测试基础推理,基于ChartQA数据验证图表分析能力,通过ImgEdit真实图像评估实际应用效果。结果表明,自博弈产生的策略性交互能有效迁移至数学推理等非显式训练任务,其表现甚至优于专门针对数学任务训练的基线模型。这种”领域无关”的特性为突破数据瓶颈提供了新思路,仅需细微差异的图片对即可启动训练流程,大幅降低数据构建成本。
Vision-Zero的突破性在于建立了可持续的能力进化范式。不同于传统监督学习受限于固定数据集,自博弈环境会随智能体水平提升自动增加难度,形成正向反馈循环。该研究不仅证实了自博弈在多模态领域的可行性,更揭示了通过策略性交互自动生成训练数据的巨大潜力,为开发更通用的AI系统开辟了新路径。项目已开源全部代码、模型及训练细节,为后续研究提供可复现的基准。
原文和模型
【原文链接】 阅读原文 [ 2730字 | 11分钟 ]
【原文作者】 Founder Park
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★