比人类专家快2倍,斯坦福联合英伟达发布TTT-Discover:用「测试时强化学习」攻克科学难题
文章摘要
【关 键 词】 AI优化、强化学习、科学发现、算法改进、性能突破
在技术快速发展的背景下,如何利用人工智能发现科学问题的新最优解成为业界关注的焦点。传统的「测试时搜索」方法依赖冻结的大语言模型(LLM)通过多次尝试改进解法,但这种方法无法让模型真正内化知识。相比之下,学习能力在围棋、蛋白质折叠等复杂问题上展现出超越搜索的潜力,因为科学发现本质上是超出训练数据分布的问题。为此,斯坦福大学与英伟达等机构提出了一种创新方法——「测试时强化学习」(TTT-Discover),通过在解决单个测试问题时持续训练LLM,推动模型实现实质性进步。
TTT-Discover的核心机制是将单个测试问题定义为强化学习环境,并针对性地优化模型。与标准强化学习不同,该方法的目标不是提升模型在广泛问题上的平均表现,而是专注于生成当前问题的单一最优解。团队设计了两个关键组件:一是熵目标函数,通过指数加权极端偏向高奖励样本,避免陷入「安全但平庸」的解决方案;二是受PUCT启发的状态复用策略,优先探索最有前景的解决路径,同时保持多样性。这种组合确保了模型能够突破常规,发现具有突破性的解。
实验结果显示,TTT-Discover在多个领域取得了显著成果。在数学领域,该方法在Erdős最小重叠问题上刷新了记录,超越了人类和AlphaEvolve的最佳表现;在GPU内核优化中,其TriMul内核比人类专家方案快50%;此外,在算法设计和单细胞分析任务中也实现了最优性能。值得注意的是,该方法基于开源模型,计算成本极低,每个问题仅需几百美元,展现了高效性与可扩展性。
然而,TTT-Discover目前仅适用于连续奖励问题,未来需进一步探索稀疏奖励或二元奖励场景(如数学证明、科学假说)的应用潜力。这一方法的提出不仅为AI解决复杂科学问题提供了新思路,也为持续学习机制的发展开辟了新的研究方向。
原文和模型
【原文链接】 阅读原文 [ 2109字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆



