文章摘要
【关 键 词】 具身智能、世界模型、数据生成、VLA模型、开源框架
国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,首次实现90%训练数据由世界模型生成,推动VLA模型性能提升300%。这一突破解决了具身智能落地中高质量真实机器人交互数据稀缺的核心瓶颈。传统真机数据采集成本高、周期长,而仿真数据又存在显著的Sim-to-Real差距。GigaWorld-0通过生成高保真、可控、多样化的具身交互数据,为VLA模型提供了高效训练基础。
GigaWorld-0由两大组件构成:GigaWorld-0-Video基于视频生成基座模型,生成视觉逼真的操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建和可微分物理引擎,确保几何结构与物理动力学的准确性。该模型在新纹理、新视角和新物体位置三大泛化维度上均实现显著性能提升,标志着具身智能进入“数据高效、高泛化、低成本”的新阶段。
在技术架构上,GigaWorld-0-Video采用稀疏注意力机制和混合专家(MoE)架构,高效建模长程时空依赖并提升生成多样性与可控性。GigaWorld-0-3D则通过生成式重建技术与可微分物理引擎,实现几何一致性和物理准确性的协同优化。此外,极佳视界自研的GigaTrain高效训练框架支持FP8精度端到端训练,显著降低显存占用与计算成本。
实验结果表明,GigaWorld-0在PBench基准上表现优异,尽管参数规模较小,但其生成数据的质量显著提升了VLA模型的任务成功率与动作精度。极佳视界团队由清华、中科院等顶尖院校研究人员及知名企业高管组成,目前已与多家头部企业达成合作,并在近期完成亿元级A1轮融资。相关代码、论文及训练框架均已开源,推动具身智能数据生成的普惠化与标准化。
原文和模型
【原文链接】 阅读原文 [ 2488字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




