超强o1模型智商已超120！1小时写出NASA博士1年代码，最新编程赛超越99.8%选手

1,774 0 0

文章摘要

【关键词】 AI编程、天文数据、Codeforces、LLM性能、自我提升

在新智元报道中，加州大学欧文分校（UCI）的物理学博士Kyle Kabasares对OpenAI的o1模型进行了测试，结果令人震惊。Kabasares发现，他花费一年时间编写的博士论文代码，o1模型仅用一个小时就能完成。在经过大约六次提示后，o1模型创建了一个运行版本的Python代码，虽然使用的是合成数据而非真实的天文数据，但其代码框架模拟了Kabasares实际代码的功能。

Kabasares的博士论文发表在“天文物理期刊”上，主要内容是通过对天文数据建模来测量黑洞质量。他在2018年7月至2019年4月期间，投入大量时间使代码初版正确运行。o1模型在1小时内给出的可运行Python代码，虽然与Kabasares的1100行代码有较大不同，但被认为是论文代码的“最简版本”。

此外，Kabasares还进行了另一项测试，他从办公室获取了由教授设计的天体物理学问题，这些问题在博士期间完成且未发布到互联网上。o1模型在没有训练数据的情况下，对这些问题的解答速度非常快，有的题目仅用16秒就完成了解答。

在Codeforces编程比赛中，o1模型的表现也引起了广泛关注。一位名为AryanDLuffy的选手使用o1-mini模型参赛，达到了接近大师级别的表现。在超过16万参赛者中，AryanDLuffy的排名为277，即前0.17%，这一成绩远远超过了OpenAI自己的基准测试结果。

然而，Codeforces的主办方对此表示担忧，并制定了新规，禁止使用各种模型来解决竞赛中的编程问题，但允许模型辅助翻译问题陈述或提供语法帮助。竞赛问题的核心逻辑、算法以及bug的诊断调试必须由人类选手独立完成。

陶哲轩也对o1模型进行了测试，他发现模型在语义搜索方面表现出色，能够提供全面且完美的答案。但在创造性策略方面，模型的表现仍有待提高。

关于o1模型的运作机制，有多篇论文进行了阐述。其中，DeepMind的论文提出了让LLM进行更多的“测试时计算”，这对于构建能在开放语境下操作、能实现自我提升的agent是关键的一步。其他论文则探讨了通过训练/RLHF提升LLM在复杂任务上的推理性能。

最后，Jim Fan在分析帖中指出，o1模型的关键见解是训练时和推理时的scaling law的并行发展，而推理时的scaling law是战胜收益递减的关键因素。他还提到了两篇论文，探讨了LLM的自我提升能力，但指出除非引入外部驱动信号，否则评论家和行动者之间不存在可持续的能力差距。