o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

AIGC动态6小时前发布 QbitAI
62 0 0
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

 

文章摘要


【关 键 词】 大模型游戏基准开源挑战

经典小游戏如推箱子和俄罗斯方块已成为评估大模型性能的新基准o3-pro模型在这两款游戏中的表现尤为突出,直接突破了现有基准的上限。推箱子的所有关卡均被o3-pro成功通关,而俄罗斯方块则因o3-pro的持续操作而被迫终止。与之前的SOTA模型o3相比,o3-pro的成绩实现了翻倍提升。这一表现引发了网友的热议,认为这套标准更适合作为测试大模型的基准。

Lmgame基准的引入为大模型提供了全新的测试平台。该基准包含多款经典游戏,如2048、糖果传奇、马里奥兄弟和逆转裁判,通过迭代交互循环模式进行测试。游戏环境持续向大模型提供状态信息,模型根据状态生成动作,执行后计算奖励并更新状态。为了确保评估的稳定性和可比性,基准还引入了智能体框架和提示标准化。每个游戏的评价方式根据其特性有所不同,但均未将时间作为考量因素。

o3-pro在推箱子和俄罗斯方块中的表现尤为引人注目。推箱子的评估指标是推动到目标位置的箱子总数,o3-pro成功通关所有关卡,超越了之前的最高记录。俄罗斯方块的得分计算方式是将放置的方块数量与清除行数的10倍相加,o3-pro的表现同样超越了之前的SOTA模型o3。尽管o3-pro的操作耗时较长,但其成绩的提升显著。

Lmgame基准的开源特性为更多研究者提供了测试平台。该基准的GitHub仓库中包含了所有游戏的地图和测试代码,研究者可以自行下载并进行测试。网友对宝可梦的测试结果表示期待,团队已表示将尽快安排。此前,Gemini模型在全网直播中成功通关了宝可梦·蓝,谷歌CEO也对此表示了兴奋。

Hao AI Lab在推动大模型测试基准的发展中发挥了重要作用。该实验室隶属于UCSD的机器学习系统实验室和NLP实验室,负责人张昊在多个开源项目中贡献显著。Hao AI Lab还接受了谷歌和英伟达的资助,今年4月英伟达捐赠了一台DGX B200。实验室的多个项目,如视频生成加速框架FastVideo,已在GitHub上获得广泛关注。

大模型竞技场顾问课题组的参与进一步提升了基准的权威性。张昊作为LMSYS的创始人之一,参与了大模型竞技场和多个知名模型框架的研发。LMSYS作为一个非营利组织,致力于推动大模型技术的发展和应用。Hao AI Lab的开源项目和研究成果为大模型测试基准的完善提供了有力支持。

原文和模型


【原文链接】 阅读原文 [ 1236字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...