文章摘要
【关 键 词】 AI领域、背景突破、开源成果、技术创新、实操成果
无博士学位、无顶刊论文背景的从业者,通过行动力和开源项目成果,也能获得顶尖AI实验室的入职机会,这一结论由OpenAI传奇研究员、德扑AI之父Noam Brown提出,Keller Jordan的经历是典型案例。Keller2020年毕业于UCSD,获数学和计算机双学士学位,毕业时无任何论文发表经历,第一份工作为AI内容审核初创公司职员。他主动联系谷歌研究人员Behnam,提出对方已发表论文的改进思路,获得指导后双方合作产出ICLR论文,积累了研究经验。
后续Keller推出的NanoGPT speed run项目成为其职业转折点,他基于开源NanoGPT框架改造出可复现、可量化的训练基准,将固定规模Transformer模型达到目标验证损失的token效率提升3.8倍,所需训练token从10B降低至2.7B。该项目刻意降低参与门槛,代码仅537行,8×H100环境下安装运行仅需20分钟,单次尝试成本低至8美元,打破了AI研究的算力门槛,让个人研究者、学生等群体都能快速验证创新想法。项目成果获得特斯拉AI负责人Karpathy的盛赞,也引起了OpenAI的关注。
2024年底,Keller推出为神经网络2D参数隐藏层设计的优化器Muon,通过对SGD-动量法生成的更新矩阵做正交化处理提升训练效率,支持bf16精度稳定运行,大幅降低计算开销,刷新了NanoGPT和CIFAR-10训练速度的世界纪录,性能表现优于当前主流的AdamW优化器,被认为可能是AI模型训练领域的重大基础创新。2024年12月Keller正式入职OpenAI,他认为多数优化器论文是水文,不会专门为Muon撰写学术论文,更倾向于持续推进技术研究。
除Keller之外,还有多位无亮眼学术背景的从业者凭借实操成果进入顶级AI机构:无顶刊一作论文、入行仅一年半的Sholto Douglas凭借在Jax开源社区的高质量产出被谷歌DeepMind邀请入职,是Gemini项目的核心贡献者之一;半退休量化分析师Andy Jones凭借设计精巧、配套GPU加速环境、消融实验严谨的预训练规模相关研究,成功入职Anthropic。所有案例均指向,可量化、可复现的实操成果,是AI领域从业者突破背景限制的核心竞争力。
原文和模型
【原文链接】 阅读原文 [ 1777字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 doubao-seed-2-0-pro-260215
【摘要评分】 ★★★☆☆



