JanusVLN:双重隐式记忆解耦语义与空间,开创视觉语言导航记忆新范式
文章摘要
【关 键 词】 视觉导航、语义解耦、空间记忆、隐式表征、计算效率
JanusVLN框架通过双重隐式神经记忆机制,实现了视觉语言导航(VLN)中语义与空间信息的有效解耦。传统VLN方法依赖显式记忆存储历史观测数据,面临空间信息损失、计算效率低下和记忆无限膨胀三大挑战。该研究创新性地采用双编码器架构:2D视觉语义编码器提取高级语义特征,3D空间几何编码器从RGB视频推断深度和遮挡等3D结构,仅凭单目输入即可获得媲美多模态传感器的空间感知能力。
核心创新在于将神经网络注意力模块的键值对(KV)缓存作为记忆载体,形成固定大小的双重隐式记忆。语义与空间信息分别存储于独立KV缓存,通过滑动窗口与初始窗口混合更新策略,在保证全局环境锚点的同时实现增量式更新,使推理时间不受导航步数影响。实验表明,在VLN-CE基准测试中,该方法较同类RGB输入模型提升成功率3.6-10.8个百分点,甚至超越依赖深度图的全景图方法10.5-35.5个百分点,且在多语言RxR-CE数据集上展现优异泛化性。
计算效率方面,JanusVLN的单帧推理时间保持稳定,而传统方法随序列增长呈指数级上升。定性分析显示,该框架能精准处理”最远物体定位””相对方位判断”等复杂空间指令,解决了传统模型在3D空间推理上的短板。研究团队指出,这项工作标志着VLN从2D语义主导迈向3D空间认知的新阶段,为具身智能体的高级空间理解能力奠定了基础。开源代码与项目主页已同步发布,推动领域进一步发展。
原文和模型
【原文链接】 阅读原文 [ 1818字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...




