Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

AIGC动态2年前 (2024)发布 QbitAI

4,250 0 0

文章摘要

【关键词】 人工智能、科研传奇、技术能力、Scaling Law、语言模型

在2003年夏天的一个周日，AI领域的传奇人物Hinton在他的多伦多大学办公室里，意外迎来了一个年轻的学生Ilya Sutskever。这位学生在经历了整个夏天的炸薯条工作后，决心加入Hinton的实验室，从而开启了一段传奇的科研生涯。Sutskever不仅在Hinton的指导下参与了改变世界的AlexNet和AlphaGo项目，更在OpenAI担任首席科学家期间，领导推出了GPT系列、DALL·E系列、Codex以及ChatGPT等具有重大影响力的模型，多次改变了人工智能的格局。

Hinton在近期的一次访谈中回忆了与Sutskever共事的经历，透露了Sutskever在科研中展现出的惊人直觉和超强的技术能力。例如，Sutskever在入门仅一周时，就对反向传播的论文提出了深度见解，并为解决优化问题提出了独到见解。此外，在没有现代流行框架的年代，他就已经展示出超凡的代码和工程能力。

Sutskever在学生时期就已经坚信Scaling Law，认为通过扩大模型规模可以显著提高其性能。这一观点在当时被认为是一种“逃避责任”的表现，但后来证明他的直觉是正确的。在OpenAI，Sutskever的这一理念得到了进一步的发展和完善。

2010年，Sutskever在Hinton的指导下，与另一位学生合作研究了一种语言模型，使用GPU进行训练，这一做法甚至比AlexNet还要早两年。该模型虽然预测的是单个字符，而非今天的大型语言模型的token，但它已经显示出对语法和结构的理解。

Hinton和Sutskever都认为，语言模型不仅仅是预测下一个token的工具，其背后的预测机制意味着模型必须学会理解问题，这种理解的方式与人类的学习方式相似。通过大规模的语言模型，他们发现即便不刻意训练推理能力，模型也能自发产生推理能力，这一点与大脑的学习机制有共通之处。如今，全世界都在期待着Sutskever的下一个动作，将继续在人工智能领域带来哪些革命性的变革。