Meta华人发布ATLAS，一个词搞定可泛化的视觉推理！

AIGC动态3周前发布 almosthuman2014

310 0 0

文章摘要

Meta AI与香港中文大学联合提出全新视觉推理范式ATLAS，仅凭一个离散的功能词元即可首次实现智能体推理与潜在视觉推理的高效统一。该架构彻底摒弃了外部工具调用、显式中间图像生成以及额外的视觉监督信号，将复杂的视觉操作压缩为标准自回归序列中的普通词元。这些功能词元在推理链中兼具双重角色：既明确指示模型执行特定的视觉动作，又作为内部潜在推理单元直接参与计算，从而在保持轻量高效的同时兼顾可解释性与泛化能力。

在训练机制方面，研究采用监督微调与强化学习相结合的两阶段策略。监督微调阶段依托覆盖四十余种任务的数据集，使模型掌握在不同视觉场景下插入对应功能词元的时机；强化学习阶段则通过定制化奖励函数，在鼓励正确答案的同时惩罚词元堆砌与冗余输出，确保视觉动作的精准调用。针对功能词元在长序列中占比极低导致的梯度稀释问题，研究团队引入潜在锚定强化学习优化算法，通过词元级锚点精准强化关键视觉操作节点的梯度更新。

多项基准测试表明，该范式在复杂几何推导、空间关系理解、细粒度判断及计数任务中均展现出强劲性能。注意力机制分析证实，功能词元并非空洞符号，而是能够切实引导模型内部注意力聚焦于目标区域、几何结构或待标注对象。整个方案无需修改现有模型架构，完全兼容标准自回归训练流程，在避免高昂计算开销与繁琐中间监督的前提下，为多模态大模型提供了一套简洁、可扩展且高效的视觉动作语言接口，显著推动了视觉推理向更紧凑、更接近人类认知模式的方向演进。