o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

1,480 0 0

文章摘要

经典小游戏如推箱子和俄罗斯方块已成为评估大模型性能的新基准。o3-pro模型在这两款游戏中的表现尤为突出，直接突破了现有基准的上限。推箱子的所有关卡均被o3-pro成功通关，而俄罗斯方块则因o3-pro的持续操作而被迫终止。与之前的SOTA模型o3相比，o3-pro的成绩实现了翻倍提升。这一表现引发了网友的热议，认为这套标准更适合作为测试大模型的基准。

Lmgame基准的引入为大模型提供了全新的测试平台。该基准包含多款经典游戏，如2048、糖果传奇、马里奥兄弟和逆转裁判，通过迭代交互循环模式进行测试。游戏环境持续向大模型提供状态信息，模型根据状态生成动作，执行后计算奖励并更新状态。为了确保评估的稳定性和可比性，基准还引入了智能体框架和提示标准化。每个游戏的评价方式根据其特性有所不同，但均未将时间作为考量因素。

o3-pro在推箱子和俄罗斯方块中的表现尤为引人注目。推箱子的评估指标是推动到目标位置的箱子总数，o3-pro成功通关所有关卡，超越了之前的最高记录。俄罗斯方块的得分计算方式是将放置的方块数量与清除行数的10倍相加，o3-pro的表现同样超越了之前的SOTA模型o3。尽管o3-pro的操作耗时较长，但其成绩的提升显著。

Lmgame基准的开源特性为更多研究者提供了测试平台。该基准的GitHub仓库中包含了所有游戏的地图和测试代码，研究者可以自行下载并进行测试。网友对宝可梦的测试结果表示期待，团队已表示将尽快安排。此前，Gemini模型在全网直播中成功通关了宝可梦·蓝，谷歌CEO也对此表示了兴奋。

Hao AI Lab在推动大模型测试基准的发展中发挥了重要作用。该实验室隶属于UCSD的机器学习系统实验室和NLP实验室，负责人张昊在多个开源项目中贡献显著。Hao AI Lab还接受了谷歌和英伟达的资助，今年4月英伟达捐赠了一台DGX B200。实验室的多个项目，如视频生成加速框架FastVideo，已在GitHub上获得广泛关注。

大模型竞技场顾问课题组的参与进一步提升了基准的权威性。张昊作为LMSYS的创始人之一，参与了大模型竞技场和多个知名模型框架的研发。LMSYS作为一个非营利组织，致力于推动大模型技术的发展和应用。Hao AI Lab的开源项目和研究成果为大模型测试基准的完善提供了有力支持。