GAIR Paper 107｜高校联合腾讯发布 GameCraft-Bench：AI已能端到端开发游戏，Claude Opus 四成达到可玩水平

49 0 0

文章摘要

随着人工智能在游戏构建领域的快速发展，自动生成的游戏项目往往面临在真实引擎中无法运行以及交互体验不佳的问题。传统的评测基准主要关注静态代码测试或局部修改，难以全面衡量端到端的可玩性，缺乏对真实引擎整合、产物完整性以及动态交互结果的有效验证。为此，研究人员提出了GameCraft-Bench，旨在构建一个基于真实游戏引擎、产物完整可运行，且能通过多模态交互进行验证的游戏生成评测基准。

GameCraft-Bench选用Godot 4引擎作为底层环境，要求代码智能体根据自然语言设计文档交付可直接启动的完整游戏项目。在评测机制上，该基准通过演示回放与多模态大模型结合，自动录制游戏运行过程并由大模型裁判对关键画面和行为进行评分。评估体系精细化地涵盖了核心机制、内容深度、反馈与可读性以及美术与呈现四大维度，不仅考察基础逻辑骨架，更全面验证最终产物的完整表现与玩家体验。

真实的评测数据揭示了当前技术瓶颈，前沿模型在端到端复杂交互系统生成上依旧薄弱。即使是最顶尖的代码智能体，其综合总分也仅为40%左右，且在内容深度与艺术表现等后续扩展维度上出现严重的得分衰退。对具体模型行为的诊断发现，工具调用策略直接影响系统级任务的收敛效率。部分模型通过高频视觉反馈闭环实现精准迭代，而另一些模型则陷入低效的终端命令行调试泥潭。当前代码智能体的核心竞争力正从单纯的基础代码编写，加速转向能否交付真正可运行、可交互且体验连贯的动态复杂软件系统。