开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布
文章摘要
【关 键 词】 人工智能、游戏AI、模型泛化、行为克隆、开源数据
人工智能在游戏领域的应用正迎来新的突破。虽然早期研究已成功开发出在特定游戏中超越人类表现的专用AI模型,但这些模型普遍缺乏跨游戏泛化能力。与此同时,通用大语言模型在多种任务中表现出色,却在游戏环境中表现欠佳。针对这一挑战,Player2研究团队开发了Pixel2Play(P2P)模型,这是一个能够直接根据游戏画面和文本指令输出键盘鼠标操作的通用游戏AI模型。
P2P模型采用轻量级架构设计,在消费级显卡上可实现超过20Hz的实时推理速度。该模型在超过40款游戏、8300小时的数据上进行训练,展现出强大的零样本迁移能力。研究团队不仅开源了全部训练与推理代码,还公开了珍贵的”画面-操作”标注数据集,填补了该领域高质量开源数据的空白。模型架构采用解码器Transformer结合轻量化action-decoder的设计,使推理速度提升5倍,同时通过自回归离散token序列实现了跨游戏通用性。
在评估环节,研究团队训练了四个不同规模的P2P模型(150M到1.2B参数)。1.2B模型在人工评估中以显著优势优于较小模型,在DOOM和Quake等游戏中的偏好度达到75%-83%。特别值得注意的是,模型展现出优秀的指令理解能力:在Quake迷宫关卡中,接受文本指令的模型通过率从20%提升至80%。研究还发现,扩大模型规模和增加训练数据能有效提升模型对因果关系的理解,缓解行为克隆中的因果混淆问题。
这项研究由Player2研究员岳煜光领导,他具有丰富的语言模型和推荐系统研究经验。P2P模型的开源不仅推动了游戏AI领域的发展,也为研究通用智能体提供了宝贵资源。该工作展示了通过规模化行为克隆提升因果推理能力的新路径,为开发更通用的游戏AI奠定了基础。
原文和模型
【原文链接】 阅读原文 [ 1756字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆



