刚刚，国产预训练具身大模型开源了，让后训练不再是必选项！

AIGC动态2个月前发布 almosthuman2014

384 0 0

文章摘要

当前具身智能领域的视觉语言动作模型评测多依赖针对特定任务的微调，导致预训练阶段的真实贡献难以衡量。为突破这一困境，自变量机器人团队推出了Wall-OSS-0.5模型，直接将未经任何任务微调的预训练模型部署于真实机器人上进行零样本测试。该模型在超过二十种机器人形态和海量多模态数据上完成预训练，在十七个零样本任务中表现出色，特别是在未见过的柔性物体操作任务中展现出强大的跨任务泛化与迁移能力，揭示了具身智能预训练中能力的阶梯式涌现现象。

在需要特定任务微调的场景下，该模型同样展现出显著的先验优势。对比行业标杆模型，其在相同数据预算下的平均任务进度大幅领先，并在高难度操作、适配效率及场景鲁棒性等方面表现稳健。高强度的动作训练不仅未导致视觉与语言理解能力退化，反而倒逼模型在具身视觉定位和放置推理等关键感知能力上实现进化，证明了物理操作与多模态感知之间存在良性互补关系。

该模型取得突破性进展的核心在于底层训练逻辑的系统性创新。研发团队通过梯度桥接协同训练，将动作离散化并与文本拼接，迫使主干网络统一视觉、语言与动作的表征空间。视觉对齐的动作标记器赋予了动作表征真正的物理含义，而动作空间监督则将学习重心调整至轨迹结构的塑造，大幅提升了训练效率。此外，团队开发了分布式优化器，有效解决了异构计算带来的系统工程障碍，使复杂的多源监督架构得以在大规模集群上高效运行。

目前，该模型的权重、训练配方及底层优化器实现已全面开放。这种全方位的开源举措为具身智能研究提供了一套经过真机验证的可复现基线，推动了通用机器人技术的持续演进。尽管在极高精度的柔性形变和长程任务上仍存局限，但该研究明确了当前预训练模型的能力边界，为后续探索指明了方向。