Meta版o1来了！田渊栋团队整合快慢思考，能走迷宫推箱子

2,537 0 0

文章摘要

【关键词】 人工智能、推理模型、Dualformer、Searchformer、性能优化

Meta FAIR的研究团队最近推出了一款名为Dualformer的新型人工智能模型，该模型能够将快速和慢速思考无缝结合，以提升性能并降低成本。Dualformer在推理轨迹和最终答案上进行训练，并通过特定策略舍弃部分轨迹，从而模仿慢思考的同时，也能像快思考一样走捷径，形成更简洁的思维链。在慢思考模式下，Dualformer的最优解率达到了97.6%，推理步骤减少了45.5%。在自动切换快慢思考模式下，最优率也达到了96.6%，推理步骤减少了59.9%。

Dualformer建立在Searchformer的基础上，后者是一个在A*搜索算法生成的路径上训练的模型，擅长解决如迷宫和推箱子等复杂推理任务。Dualformer通过在随机推理轨迹数据上训练，并在训练过程中依据定制的丢弃策略舍弃部分结构，学习更简洁有效的搜索和推理过程。这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整。

在迷宫和推箱子游戏的任务中，Dualformer的表现显著优于仅基于解决方案数据训练的Solution-Only模型。在30×30迷宫任务中，Dualformer在97.6%的情况下可以达到最优解。此外，该方法还被推广到Mistral-7B和Llama3-8B模型上，在Aug-MATH数据集上，模型的表现都有所提升。

该研究由Meta FAIR的研究科学家主任田渊栋领导，团队成员包括Qinqing Zheng、Sainbayar Sukhbaatar和Michael Rabbat，他们在生成模型、强化学习、大模型推理和记忆以及机器学习、分布式算法、信号处理等领域拥有丰富的研究经验。论文已在arXiv上发表。