刚刚，最佳VLA模型GigaBrain-0开源：世界模型驱动10倍数据，真机碾压SOTA

593 0 0

文章摘要

国内首个利用世界模型生成数据实现真机泛化的端到端VLA具身基础模型GigaBrain-0正式发布。该模型由极佳视界与湖北人形机器人创新中心联合开发，标志着通用机器人大脑开发方式的重大变革。GigaBrain-0采用最先进的视觉-语言-动作（VLA）架构，支持图像、点云、文本和本体状态的多模态输入，能够输出结构化任务规划和运动规划，在大规模预训练数据基础上实现了精准移动导航和长序列复杂操作能力。

模型的核心突破体现在3D空间感知和结构化推理两大能力上。通过引入深度信息输入，GigaBrain-0显著提升了物体3D位置和空间布局感知能力，这对双臂操作和移动导航至关重要。在推理能力方面，模型创新性地采用子目标拆解和机械臂末端轨迹输出技术，实现了开放场景中更合理的任务分解和全局动作规划，大幅提升了长程复杂任务的成功率。测试显示，该模型全球首次实现了一脑多形、一段式端到端全身控制模型完成衣物整理类复杂柔性操作任务。

数据体系的创新是另一大亮点。极佳视界构建了全球首个世界模型驱动的完整具身数据体系，包含Sim2Real转换数据、Real2Real转换数据、视角转换数据、视频生成数据和人类动作转换数据五大类。通过世界模型生成的数据，GigaBrain-0的真机操作成功率得到持续提升，并首次实现了连续柔性复杂长程操作的开放世界泛化。实验表明，混合使用生成数据和真机数据，模型能快速完成特定本体上的任务适配。

在实际应用方面，GigaBrain-0展现了卓越的跨本体适配能力。基于覆盖工业、商业、办公等14个具体场景的大规模预训练数据，结合极佳世界模型平台，该模型在不同机器人本体上都能快速实现复杂操作任务。测试中，模型在灵巧操作、长程任务和移动操作三类任务上的成功率均显著优于现有最优方法。

极佳视界作为国内首家专注”世界模型×具身大脑”的科技公司，通过双轮闭环的技术路线推动物理世界通用智能的发展。公司团队汇聚了全球顶尖院校研究人员和知名企业高管，在自动驾驶世界模型方向已与多家主机厂达成合作，在具身智能领域也建立了广泛的应用场景合作。GigaBrain-0的开源将加速行业技术进步，为机器人智能化发展提供重要基础支撑。