英伟达23人梦之队，让AI用7天干翻了自己的GPU专家

63 0 0

文章摘要

该研究由NVIDIA23人顶尖团队完成，提出名为AVO（Agentic Variation Operators）的自主进化搜索框架，实现AI在7天内无需人工干预，完成通常需数月乃至数年的人工GPU内核优化任务。实验中，AVO在NVIDIA最新B200 GPU上生成的多头注意力（MHA）计算内核，在多个配置下性能超越传统标杆cuDNN 3.5%，并比当前学术前沿FlashAttention-4快10.5%，标志着人工智能首次在高性能计算核心组件上超越人类专家级成果。更关键的是，其优化并非局部技巧堆砌，而是深入寄存器分配、warp调度与流水线时序等微架构层级——表明AI已具备对底层硬件行为的理解能力。

AVO突破性地将AI从“流程中的辅助工具”升级为“全过程主导者”，通过调用领域知识库、追踪进化历史谱系、结合实际运行反馈实现自我诊断与迭代改进。这一过程避免了传统进化算法中变异操作“盲目性”的致命缺陷，使整个优化过程建立在数据驱动基础上，每次失败尝试都转化为后续路径修正的知识资源，极大提升了探索效率和方案质量。尤其值得注意的是，其在MHA上积累的优化策略可迁移至GQA任务，仅用30分钟即获7%-9%进一步提升，凸显其学到的是通用性的优化方法论，而非特定代码模板。

研究结论指出，AVO所代表的技术演进意味着计算产业迎来范式转变：一方面显著加速大模型训练进程，提升同等硬件下的模型规模与效率；另一方面有望降低对顶级优化人才的依赖，释放人力聚焦更高阶研发；更深远意义在于，它证明AI不仅能自动化执行任务，还能系统性优化自身开发流程——未来可能出现更多“AI优化AI”的循环结构，催生新型“共研者”角色，在芯片设计、编译器及算法创新等高度专业领域拓展人类认知边界。

<强>AVO在7天内生成的代码性能不仅超越cuDNN，还比FlashAttention-4快10.5%，堪称革命性突破。
<强>该技术揭示AI已能深入理解GPU微架构细节，并非仅靠算法替换，而是从寄存器分配到流水线调度等多层实现精细优化。
<强>其成功表明AI优化本身正走向自主进化——即“AI不仅编写代码，还学会如何写得更好”，并具备将经验迁移至新任务的能力。