文章摘要
【关 键 词】 机器人导航、跨任务模型、基座大模型、实时部署、数据训练
导航能力是机器人移动操作的基础能力,也是扩展其工作范围和应用场景的关键因素。然而,当前导航任务通常针对特定任务和机器人设计,导致大量研究精力投入任务和机器人设计的先验,忽视了跨任务和跨本体导航的能力共性,限制了算法层面的可扩展性。为此,北京大学、银河通用、阿德莱德大学和浙江大学等机构合作提出NavFoM,一个跨任务和跨载体的导航大模型,旨在实现具身导航从“专用”到“通用”的技术跃进。NavFoM支持多任务(如视觉语言导航、目标搜索、目标跟随和自动驾驶)、全场景(室内和室外)以及跨本体(四足、轮式、人形、无人机和汽车等)的导航需求。
NavFoM的核心思想是将不同机器人的导航任务统一到相同的范式:机器人采集的流式视频与自然语言导航指令结合,输出动作轨迹。通过将导航目标用文本指令描述,并用视频流表达导航历史,模型能够预测未来的运动轨迹。NavFoM的模型架构支持单目和多种环视输入,使用Temporal-Viewpoint Indicator Tokens(TVI Tokens)标记图像的时间和角度维度,兼容不同本体的相机设置。此外,Dual-Branch结构使模型能够同时处理导航任务和问答任务,分别通过planning head输出轨迹或通过LM head生成文本。
为支持实时部署7B参数的导航基座模型,团队提出了Budget-Aware Token Sampling Strategy(BATS)。该策略在有限算力约束下自适应采样关键帧,通过定义遗忘曲线动态调整采样分布,确保在长程导航任务中保持性能与效率的平衡。实验表明,BATS能够实现稳定的运行效率,具备落地真实场景的潜力。
团队收集了八百万条跨任务和跨本体的导航数据,涵盖视觉语言导航、目标导航、目标跟踪和自动驾驶等任务,以及四百万条开放世界问答数据。训练数据量是以往工作的两倍,并通过图像数据缓存技术减少硬件需求。NavFoM在多个公开基准测试中实现了SOTA或接近SOTA的效果,无需针对特定任务或机器人进行微调,仅需修改指令和相机布局即可适配不同场景。
NavFoM的提出标志着具身智能导航模型迈向通用化,其意义在于首次构建了统一的导航基础模型架构。该模型能够处理多种机器人载体、不同任务和场景的输入,并在无需微调的情况下达到最优性能。团队进一步验证了NavFoM在复杂任务中的潜力,例如30分钟以上的长程跟随、第三方地图引导的自主城市出行以及360度纯视觉精确避障。这项工作为具身智能导航研究提供了新方向,有望加速技术向实际应用的转化。
原文和模型
【原文链接】 阅读原文 [ 2074字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




