陶哲轩提前实测满血版o1：能当研究生使唤

AIGC动态2年前 (2024)发布 QbitAI

3,449 0 0

文章摘要

陶哲轩，一位著名的数学家，对OpenAI的o1模型进行了测试，发现其在解决数学问题上表现出色，尤其是在识别克莱姆定理方面。他通过三轮测试来评估模型的性能。在第一轮测试中，o1模型成功识别并应用了克莱姆定理，给出了满意的答案。第二轮测试中，模型在解决复杂分析问题时，虽然需要大量提示，但最终能够提供正确的解决方案。第三轮测试中，模型在将质数定理转化为Lean定理形式时，虽然理解了任务，但在代码实现中出现了小错误，这可能是由于训练数据中缺乏最新信息。

陶哲轩将使用o1模型的体验比作指导一个平庸但有能力的研究生，认为模型虽然不能产生新的思想，但在提供足够提示的情况下，能够完成复杂的任务。这种比喻在HackerNews等平台上引发了热烈讨论。一些用户认为，尽管大模型在编程方面有帮助，但还有其他工具可以解决问题。而另一些人则认为，大模型的能力足以媲美数学研究生。

此外，一位名为wenc的网友分享了他使用大模型进行运筹学研究的经验，发现从GPT 4o开始，模型能够提供有用的混合整数规划公式，并且能够预警无效回答的风险。wenc认为，大模型的价值远超其订阅费用，并且预计随着模型在Lean上的调整，其在数学研究中的实用性将进一步提升。

陶哲轩回应了关于大模型的争议，他提出了一个指标，即助手在专家指导下完成复杂数学研究项目任务的能力。他认为，虽然目前让大模型输出正确答案比输入精准提示和验证结果要困难2-5倍，但预计未来几年这个差距将缩小到1倍以内。他强调，大模型可以协助研究人员，但培养研究生的目的是培养未来的独立研究者。

最后，讨论中得出的结论是，大模型的价值因人而异，主要取决于用户的提示词工程能力。随着用户技巧的提升，他们可以用更少的时间获得更好的效果。