自动驾驶VLA新SOTA：复旦联合团队提出WAM-Diff重塑端到端自动驾驶

229 0 0

文章摘要

复旦大学与引望智能科技联合提出的WAM-Diff框架，在NAVSIM-v1榜单上以91.0 PDMS的预测驾驶得分刷新了自动驾驶领域的性能记录。这一端到端自动驾驶系统通过掩码扩散模型、稀疏混合专家架构和在线强化学习的创新组合，解决了多模态轨迹生成的核心难题。框架采用离散掩码扩散技术重构了轨迹生成范式，将传统自回归模型的顺序生成转变为全局填空式生成，显著提升了规划灵活性和解码效率。模型支持并行解码和非因果策略，能够先确定终点再反推路径，这种以终为始的思维突破了时间顺序的局限。

在架构设计上，研究团队开发了混合离散动作分词方案，将连续轨迹数据与语义指令统一编码。通过20,001个数值token与文本词表的融合，实现了高层指令与底层控制信号的双向条件调节。稀疏混合专家架构的引入使模型在保持计算效率的同时，具备处理复杂场景的扩展能力，64个LoRA专家根据场景动态激活，形成术业专攻的协同机制。多任务学习策略不仅要求模型输出轨迹，还需通过驾驶导向的视觉问答理解场景逻辑，这种设计显著提升了规划决策的可解释性。

在线强化学习的应用为模型注入了人类驾驶价值观，组序列策略优化算法从整体序列层面评估驾驶质量。多维奖励函数涵盖无碰撞、可行驶区域合规、碰撞时间、舒适度和自身进度等关键指标，使模型能够超越模仿学习的局限，自主应对分布外的极端场景。实验数据显示，WAM-Diff在安全指标上表现突出，无碰撞率达到99.1%，可行驶区域合规率达98.3%，同时保持接近满分的舒适度评分。

尽管性能卓越，该框架仍存在感知视野受限和缺乏时序历史信息等不足。当前模型仅处理前视摄像头输入，在侧向交通参与者的意图判断上存在盲区，且未利用视频流的时间维度信息。未来改进将聚焦环视视觉编码器和高效时序模型的开发，以提升动态环境下的推理能力。WAM-Diff的创新实践为端到端自动驾驶提供了新范式，其技术路线对多模态决策系统的设计具有广泛启示意义。