自动驾驶VLA新SOTA:复旦联合团队提出WAM-Diff重塑端到端自动驾驶

AIGC动态2小时前发布 AIGCOPEN
34 0 0
自动驾驶VLA新SOTA:复旦联合团队提出WAM-Diff重塑端到端自动驾驶

 

文章摘要


【关 键 词】 自动驾驶AIGC扩散模型强化学习轨迹生成

复旦大学与引望智能科技联合提出的WAM-Diff框架,在NAVSIM-v1榜单上以91.0 PDMS的预测驾驶得分刷新了自动驾驶领域的性能记录。这一端到端自动驾驶系统通过掩码扩散模型、稀疏混合专家架构和在线强化学习的创新组合,解决了多模态轨迹生成的核心难题。框架采用离散掩码扩散技术重构了轨迹生成范式,将传统自回归模型的顺序生成转变为全局填空式生成,显著提升了规划灵活性和解码效率。模型支持并行解码和非因果策略,能够先确定终点再反推路径,这种以终为始的思维突破了时间顺序的局限。

在架构设计上,研究团队开发了混合离散动作分词方案,将连续轨迹数据与语义指令统一编码。通过20,001个数值token与文本词表的融合,实现了高层指令与底层控制信号的双向条件调节。稀疏混合专家架构的引入使模型在保持计算效率的同时,具备处理复杂场景的扩展能力,64个LoRA专家根据场景动态激活,形成术业专攻的协同机制。多任务学习策略不仅要求模型输出轨迹,还需通过驾驶导向的视觉问答理解场景逻辑,这种设计显著提升了规划决策的可解释性。

在线强化学习的应用为模型注入了人类驾驶价值观,组序列策略优化算法从整体序列层面评估驾驶质量。多维奖励函数涵盖无碰撞、可行驶区域合规、碰撞时间、舒适度和自身进度等关键指标,使模型能够超越模仿学习的局限,自主应对分布外的极端场景。实验数据显示,WAM-Diff在安全指标上表现突出,无碰撞率达到99.1%,可行驶区域合规率达98.3%,同时保持接近满分的舒适度评分。

尽管性能卓越,该框架仍存在感知视野受限和缺乏时序历史信息等不足。当前模型仅处理前视摄像头输入,在侧向交通参与者的意图判断上存在盲区,且未利用视频流的时间维度信息。未来改进将聚焦环视视觉编码器和高效时序模型的开发,以提升动态环境下的推理能力。WAM-Diff的创新实践为端到端自动驾驶提供了新范式,其技术路线对多模态决策系统的设计具有广泛启示意义。

原文和模型


【原文链接】 阅读原文 [ 2537字 | 11分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...