Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

AIGC动态2个月前发布 almosthuman2014

442 0 0

文章摘要

当前视觉语言动作大模型在应对复杂物理环境与长程任务时频发失效，长期依赖人工记录边缘案例并反复微调。LWD部署中学习范式通过构建集群级强化学习闭环，将外部监督转化为机器人自主交互经验，彻底重构了具身智能的静态训练逻辑。该技术框架以预训练模型为起点，融合专家演示、历史成功记录与探索失败数据进行离线预训练。在真实部署过程中，机器人传感器采集的多模态轨迹被实时回传至云端，混合存量数据进行在线策略更新，随即将优化后的模型推送至物理集群。每台终端由此兼具任务执行者与学习信号源的双重角色，实现物理数据驱动的策略飞轮运转。

为保障分布式海量经验的有效消化，底层算法架构完成四维技术迭代。分布型隐式价值学习精准适配稀疏奖励与异构数据回放，伴随匹配策略提取技术绕过流模型反向传播瓶颈，动态多步时间差分机制依据任务跨度智能调节预测步长，分段异步设施则实现终端采集节点与云端算力完全解耦。上述工程创新使得前端交互数据转化为可用训练经验仅需数十秒，并成功将超过三成的失败轨迹纳入价值函数，赋予系统从物理干扰中自主纠偏的稳定性。

实际环境的大规模验证印证了该路线的有效性。多台双臂机器人执行涵盖货架理货与连贯操作的测试，综合平均成功率达到百分之九十五。在极易因初始微小偏差累积而导致任务崩溃的分钟级长程场景中，持续在线迭代的强化策略表现显著超越纯行为克隆及现有离线后训练基准。技术演进轨迹表明具身智能的研发重心正从基础预训练加速转向真实部署阶段的动态后训练。未来通用机器人产品的核心差异化指标将不再局限于初始参数与数据存量，而是取决于实际业务场景中持续吸收现实反馈并完成自我升级的效率。