英伟达全模态Cosmos 3：一个模型搞定物理智能看、想、做、演

50 0 0

文章摘要

英伟达最新发布了面向物理智能的全模态世界模型Cosmos 3，该模型采用统一的混合Transformer架构，能够同时处理和生成语言、图像、视频、音频与动作序列五种模态。Cosmos 3将视觉语言模型、视频生成器、世界模拟器及世界动作模型整合进单一框架，在多个主流榜单中取得开源第一的成绩。

在架构设计上，五种模态的输入经过各自编码器投射至共享表征空间，避免了多模型串联带来的信息损耗与重复计算。模型内部划分为负责推理理解的自回归子序列与负责生成的扩散子序列，两者通过联合注意力机制进行交互，实现了推理与生成的深度联动。这种设计使得模型能够在视觉语言理解、视频生成、动力学模拟以及机器人策略规划等任务间自由切换，无需修改底层架构。

在性能表现方面，Cosmos 3在理解和生成两个维度均展现出卓越能力。理解侧能够在自动驾驶和机器人操作等场景中识别关键物体并进行链式推理，精确拆解动作链；生成侧则可根据文本或图像生成具备物理细节的场景与视频。通过前向动力学预测未来状态以及逆动力学反推控制信号，模型构建了推理指导生成、生成验证推理的闭环，提升了物理交互的准确性。

为适应不同算力需求，Cosmos 3提供16B参数的Nano版本与64B参数的Super版本，分别适用于端侧实时交互与大规模数据生成。英伟达全面开源了代码、模型权重、评测基准以及六个覆盖物理智能核心领域的合成数据集，并采用商用友好的许可协议。此外，配套提供的后训练脚本与工具包，进一步降低了开发者的微调与部署门槛，推动了相关技术的生态发展。