o1研发团队首次集体访谈：教AI数r用了一年半

AIGC动态2年前 (2024)发布 QbitAI

3,575 0 0

文章摘要

在一次OpenAI团队的见面会上，团队成员分享了o1模型的发展历程和研发过程中的趣事。o1模型受到AlphaGo和早期GPT模型的启发，结合了深度强化学习和监督学习，以生成连贯的思维链。团队成员在轻松的氛围中讨论了o1的研发，包括它在解决“数r”问题上花费了一年半的时间，以及技术人员将代码报错信息直接交给o1去debug的情况。o1展现出了自我批评的能力，甚至在被问及生命的意义时，它回答“42”，并尝试用代数定义“love”。

o1模型被描述为一个推理模式，它在回答问题之前会进行更多的思考。团队发布了两个版本：o1-preview和更小、更快的o1-mini，它们都采用了相同的训练框架。推理能力被解释为将思考时间转化为更好成果的能力，适用于复杂问题和创造性任务。

研发过程中，团队成员分享了他们的“Aha moment”，包括生成连贯思维链的时刻，以及模型开始质疑自己并进行反思的时刻。团队成员也讨论了模型的思考过程，有的觉得模型更像真人，有的则认为它更像机器人。他们还提到了在训练大型模型时遇到的困难，以及如何克服这些挑战。

在OpenAI内部，团队成员使用o1模型进行多种任务，包括编写代码和debug。o1-mini的诞生是为了让更多的人能够使用o1系列，它具有较低的成本和时延。团队成员对于能够推动工程和科学发展感到兴奋，他们认为o1模型能够解决专家也难以解决的问题。

最后，团队成员分享了他们对这项研究的激励因素，包括对智能推理的兴趣、对模型范式转变的期待，以及对科技改善人类生活的信仰。他们观察到每个模型都有自己的“怪癖”，在不同任务上的表现也不尽相同。团队成员对o1模型的未来发展充满期待，认为它将解锁新的能力，如科学发现，并在世界上创造新知识。