强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?

强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?

 

文章摘要


【关 键 词】 递归思考自我批判语言模型推理能力迭代优化

CoRT(Chain-of-Recursive-Thoughts)是一种在语言模型中引入递归思考自我批判机制的新方法,旨在提升模型的推理能力。与传统的CoT(Chain-of-Thought)相比,CoRT不仅让模型分步骤思考,还允许其在思考过程中反复回头检查、修正,形成类似于人类的反思性思维。这种机制通过生成替代性方案并从中选择最佳响应,赋予AI自我质疑和反驳的能力,从而优化其推理路径。

CoRT的核心在于结合了结构化自我批判和递归思考模式,通过迭代优化和动态思维深度,显著提升了语言模型的推理能力。具体工作流程包括生成初始响应、决定思考轮数、生成替代性响应、评估所有响应并选择最佳响应。这一过程类似于AI内部的“大混战”,最终幸存者即为最佳答案。

尽管CoRT在技术原理上具有创新性,但部分网友认为其并非全新概念,而是对现有技术的改进。例如,有观点指出,CoRT与2023年论文中提出的多智能体辩论方法类似,或者与某些现有模型中的“but wait”模式相似。这些讨论表明,CoRT可能被视为“新瓶装旧酒”,但其在实践中的表现仍值得关注。

在编程任务中,CoRT的表现显著提升,尤其是在复杂任务的处理上。作者使用Mistral 3.1 24B模型进行测试,发现CoRT将模型的表现从“一般般”提升到了“碉堡了”。例如,在井字棋游戏中,使用CoRT后,模型从基础的命令行界面升级为完全的面向对象编程,展示了其强大的优化能力。

目前,CoRT项目在GitHub上获得了广泛关注,星标数接近2k。尽管其Web界面仍处于早期开发阶段,但其潜力已引起业界关注。未来,CoRT是否能在更广泛的应用场景中展现其价值,仍需进一步验证。

原文和模型


【原文链接】 阅读原文 [ 812字 | 4分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...