o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

AIGC动态8小时前发布 AIera
73 0 0
o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

 

文章摘要


【关 键 词】 AI游戏评估模型框架

近年来,大型语言模型(LLM)的快速发展促使研究人员寻找更有效的评估工具,以衡量这些模型在感知、记忆和推理等方面的能力。在这一背景下,经典游戏如《宝可梦》逐渐成为测试AI模型的重要工具。尽管这些游戏看似简单,但它们对AI的长期规划、决策和记忆能力提出了极高的要求。例如,Anthropic的Claude模型和Google的Gemini模型都尝试通过《宝可梦》来展示其推理能力,但这些测试缺乏标准化,导致结果难以比较。

为了解决这一问题,加州大学圣地亚哥分校(UCSD)等机构推出了Lmgame Bench,这是一个标准化的评估框架,旨在通过一系列经典游戏系统地测试LLM的能力。Lmgame Bench的核心在于其模块化设计,包括感知、记忆和推理模块,这些模块帮助模型更好地与游戏环境互动,并减少对提示的敏感性。通过精选的中等难度游戏,如《推箱子》、《超级马里奥兄弟》、《俄罗斯方块》等,Lmgame Bench能够有效区分不同模型的能力。

在感知模块中,Lmgame Bench将原始游戏帧转换为结构化的文本描述,减少了对视觉理解的依赖。内存模块则存储了最近的状态和动作,支持长期规划。推理模块则综合所有信息,进行长链式思维推理。这种设计不仅提高了测试的准确性,还为模型在复杂环境中的表现提供了更全面的评估。

此外,Lmgame Bench还引入了Gym风格的标准化接口,统一了评估设置,避免了因操作差异导致的测试结果不一致。通过这一接口,研究人员可以更稳定地评估模型的表现,并消除数据污染的影响。在13个领先模型上的实验表明,Lmgame Bench具有挑战性,同时仍能有效区分不同模型的能力。

值得注意的是,尽管某些模型在《2048》和《俄罗斯方块》等游戏中表现出色,但在《糖果消除》等相对简单的游戏中却表现不佳。这表明,即使是顶尖的LLM,在面对不同类型的任务时,其能力也存在显著差异。Lmgame Bench的推出,不仅为AI评估提供了一个标准化的工具,还揭示了游戏作为AI基准测试资源的巨大潜力。

未来,随着更多复杂游戏的引入,AI评估体系将变得更加多样化。Lmgame Bench的诞生标志着AI评估进入了一个新的阶段,真正的智能不仅体现在数学和编程任务中,更体现在复杂、开放、动态环境中的持续思考和行动能力。这场测试,远未结束。

原文和模型


【原文链接】 阅读原文 [ 2401字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...