刚刚,Anthropic内部考题开源!年薪百万工程师,被AI秒了

AIGC动态3小时前发布 AIera
53 0 0
刚刚,Anthropic内部考题开源!年薪百万工程师,被AI秒了

 

文章摘要


【关 键 词】 AI模型编程测试性能优化招聘挑战开源项目

Claude Opus 4.5的突破性表现直接颠覆了Anthropic的技术招聘体系,这家AI公司被迫公开其曾经用于筛选顶级工程师的机密试题。这个被称为”史上最强模型”的版本在编程测试中展现出超越人类顶尖工程师的能力,尤其在性能优化领域达到了与人类天花板持平的水平。测试要求候选人进行多核并行优化、SIMD向量化和VLIW指令打包等复杂操作,原本能够有效区分工程师能力的题目现在已被AI轻松破解。

Anthropic性能优化团队负责人Tristan Hume设计的这套测试题曾是其招聘流程的核心环节。最初的版本包含模拟TPU特征的假加速器,要求候选人优化并行树遍历问题的代码。这套系统精心设计了scratchpad内存管理、VLIW架构、SIMD运算和多核架构等硬核要素,在一年多时间里成功筛选出数十位顶尖人才,包括刚毕业就展现出非凡实力的年轻工程师。许多候选人甚至超时后仍继续优化,提交的作品中甚至出现了迷你优化编译器这样的创新。

然而随着Claude模型的迭代升级,这套测试题的有效性开始迅速瓦解。Claude 3.7 Sonnet已能让半数候选人通过简单提问获得高分,而Opus 4版本在4小时内生成的代码就优于大多数人类。团队曾通过增加题目复杂度和缩短时间尝试维持测试效果,但Claude Opus 4.5的出现彻底打破了平衡。该模型不仅能够解决初始瓶颈,还能发现只有极少数人类专家才能想到的优化技巧,在内部测试中得分与人类历史最高纪录持平。更令人担忧的是,随着思考时间的延长,它的表现还在持续提升。

面对这一挑战,Anthropic尝试了多种应对方案。设计更难的内核优化问题时,Claude找到了设计者都未想到的解决方案路径;转向Zachtronics风格的编程解谜游戏虽然暂时奏效,但牺牲了测试的真实性和多样性。最终公司决定开源原始试题,并向全球开发者发起挑战,寻找能在无限时间条件下超越AI极限的人类专家。同时,他们也在开发全新的”防Claude”面试题,这些题目基于AI尚未充分接触的”分布外”领域,试图在AI时代重建有效的技术评估体系。

这一事件标志着AI能力发展对技术招聘产生的深远影响。当AI能够解决原本用于评估人类能力的测试时,如何设计有效的评估标准成为亟需解决的难题。Anthropic的应对策略反映了当前业界的普遍困境:既要承认AI辅助已成为工作常态,又需要开发能够真实反映人类专业能力的评估方法。开源原始试题既是对技术社区的贡献,也是对人工智能边界的一次公开探索。

原文和模型


【原文链接】 阅读原文 [ 2699字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...