英伟达23人梦之队,让AI用7天干翻了自己的GPU专家
文章摘要
【关 键 词】 AI自演化、GPU优化、智能体编程、自主进化、代码生成
该研究由NVIDIA23人顶尖团队完成,提出名为AVO(Agentic Variation Operators)的自主进化搜索框架,实现AI在7天内无需人工干预,完成通常需数月乃至数年的人工GPU内核优化任务。实验中,AVO在NVIDIA最新B200 GPU上生成的多头注意力(MHA)计算内核,在多个配置下性能超越传统标杆cuDNN 3.5%,并比当前学术前沿FlashAttention-4快10.5%,标志着人工智能首次在高性能计算核心组件上超越人类专家级成果。更关键的是,其优化并非局部技巧堆砌,而是深入寄存器分配、warp调度与流水线时序等微架构层级——表明AI已具备对底层硬件行为的理解能力。
AVO突破性地将AI从“流程中的辅助工具”升级为“全过程主导者”,通过调用领域知识库、追踪进化历史谱系、结合实际运行反馈实现自我诊断与迭代改进。这一过程避免了传统进化算法中变异操作“盲目性”的致命缺陷,使整个优化过程建立在数据驱动基础上,每次失败尝试都转化为后续路径修正的知识资源,极大提升了探索效率和方案质量。尤其值得注意的是,其在MHA上积累的优化策略可迁移至GQA任务,仅用30分钟即获7%-9%进一步提升,凸显其学到的是通用性的优化方法论,而非特定代码模板。
研究结论指出,AVO所代表的技术演进意味着计算产业迎来范式转变:一方面显著加速大模型训练进程,提升同等硬件下的模型规模与效率;另一方面有望降低对顶级优化人才的依赖,释放人力聚焦更高阶研发;更深远意义在于,它证明AI不仅能自动化执行任务,还能系统性优化自身开发流程——未来可能出现更多“AI优化AI”的循环结构,催生新型“共研者”角色,在芯片设计、编译器及算法创新等高度专业领域拓展人类认知边界。
<强>AVO在7天内生成的代码性能不仅超越cuDNN,还比FlashAttention-4快10.5%,堪称革命性突破。强>
<强>该技术揭示AI已能深入理解GPU微架构细节,并非仅靠算法替换,而是从寄存器分配到流水线调度等多层实现精细优化。强>
<强>其成功表明AI优化本身正走向自主进化——即“AI不仅编写代码,还学会如何写得更好”,并具备将经验迁移至新任务的能力。强>
原文和模型
【原文链接】 阅读原文 [ 2040字 | 9分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 qwen3-vl-flash-2026-01-22
【摘要评分】 ★★★★☆



