DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了
文章摘要
【关 键 词】 大模型、推理能力、思维社会、多智能体、群体智慧
过去两年,大模型的推理能力经历了显著跃迁,尤其在数学、逻辑和多步规划等复杂任务上,推理模型如OpenAI的o系列、DeepSeek-R1和QwQ-32B已稳定超越传统指令微调模型。最初,这种优势被归因于更长的思维链和更高的测试时计算量,但最新研究揭示了更深层的机制。谷歌和芝加哥大学等机构的研究表明,推理能力的提升并非仅源于计算步数的增加,而是模型在推理过程中隐式模拟了一种复杂的、类多智能体的交互结构,称为「思维社会」。这种结构类似于数字大脑中的内部辩论队,不同角色通过争论、纠正、表达惊讶和调和观点来达成正确答案。
研究发现,推理模型如DeepSeek-R1和QwQ-32B展现出更高的视角多样性,激活了更广泛且异质性更强的特征,这些特征与人格和专业知识相关,并在推理过程中产生充分冲突。这种类多智能体的内部结构表现为对话式行为,包括提问-回答序列、视角切换和冲突观点整合,同时通过社会情感角色(如信息给予、征询、积极和消极情感)促进关键认知策略的运作。受控强化学习实验进一步证实,即使仅以推理准确率为奖励信号,基础模型也会自发增加对话式行为;而引入对话式脚手架能显著加速推理能力的提升。
研究还通过特征干预实验验证了对话行为对推理表现的直接影响。例如,在Countdown任务中,对惊讶特征的正向引导使准确率从27.1%提升至54.8%,而负向引导则降低至23.8%。这表明对话特征通过两条路径提升推理能力:直接帮助模型探索解空间,以及支持验证、回溯和子目标分解等认知策略。此外,强化学习实验显示,对话式结构能自发促进推理策略的形成。
这些发现为利用「群体智慧」优化大模型推理能力提供了新方向。谷歌提出,通过智能体组织形式系统性利用多样性,可以更高效地解决问题。这一研究不仅揭示了推理能力的结构化本质,也为未来模型设计提供了重要启示:社会化思维模式可能是提升复杂任务表现的关键。
原文和模型
【原文链接】 阅读原文 [ 3630字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆



