文章摘要
【关 键 词】 具身智能、游戏视频、动作标签、通用模型、跨游戏泛化
NVIDIA 近期发布的 NitroGen 模型代表了具身智能领域的一项突破性进展。该模型通过从带有按键显示的互联网游戏视频中提取动作标签,构建了目前规模最大的视觉-动作数据集,总量达40000小时,覆盖1000多款游戏。这一创新解决了长期困扰具身智能研究的数据匮乏问题,为训练通用智能体提供了重要基础。
传统方法在具身智能领域面临多重挑战。计算机视觉和大语言模型通过海量互联网数据实现了泛化能力,但具身智能因缺乏大规模、多样化且带有动作标签的数据集而发展缓慢。电子游戏作为视觉丰富且交互复杂的环境,本应是理想的研究平台,但以往方法要么依赖手动编程接口,要么受限于昂贵的强化学习成本。NitroGen 团队另辟蹊径,发现速通社区和硬核玩家直播中常见的输入叠加层(实时显示手柄按键状态的插件)是天然的动作标签来源。
研究团队开发的三阶段自动化处理流程是技术核心。首先通过模板匹配定位视频中的手柄位置,然后使用微调的SegFormer分割模型解析动作,最后通过质量过滤保留有效片段。这套流程在验证测试中表现出色,摇杆位置提取的R2分数达0.84,按键状态准确率达0.96。数据集构建过程注重多样性,最终覆盖818位创作者的38739个视频,动作角色扮演游戏占比34.9%,平台跳跃类占18.4%。
模型架构方面,NitroGen采用基于流匹配的生成式模型。视觉编码器使用SigLIP 2视觉Transformer,动作生成部分采用扩散Transformer,每次预测未来16个动作块。研究意外发现,在快节奏动作游戏中,仅使用当前帧画面就足够决策,增加历史帧并未提升性能。动作空间被统一为标准格式,包括16维二进制向量表示按键和4维连续向量表示摇杆位置,这种设计实现了不同游戏间的策略迁移。
评估结果显示,NitroGen展现出卓越的跨游戏泛化能力。在包含10款游戏、30项任务的多游戏测试中,未经特定游戏微调的模型能应对全新环境,包括2D平台跳跃和3D开放世界等不同类型。留一法实验表明,预训练模型在少量数据微调后,在3D动作RPG游戏中相对性能提升高达52%,导航任务提升25%,证明其学到了可迁移的通用技能。不过,游戏特有机制的收益相对较小,约5%。
这项研究的主要局限在于模型依赖瞬时决策,缺乏长期规划和语言理解能力,且数据集偏重手柄操作的动作游戏。尽管如此,NitroGen通过开源数据集、模拟器和模型权重,显著降低了在商业游戏中训练AI的门槛,为具身智能研究开辟了新路径。这一突破预示着AI通过视觉观察和操作探索虚拟世界的时代可能即将到来。
原文和模型
【原文链接】 阅读原文 [ 2734字 | 11分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




