文章摘要
【关 键 词】 机器人、导航模型、跨本体、自主导航、具身智能
银河通用联合多所高校团队推出全球首个跨本体全域环视导航基座大模型NavFoM,标志着机器人自主导航能力取得突破性进展。该模型通过统一“视频流+文本指令→动作轨迹”的范式,彻底重构了传统模块化导航逻辑,使机器人在完全未知环境中实现自主决策与路径规划。例如,搭载NavFoM的机器狗可动态切换跟随与导航模式,在密集人流中避障、穿越街道时识别斑马线,甚至完成上下楼梯等复杂动作。
NavFoM的核心创新体现在三大技术特性:全场景Zero-Shot适应能力使其无需预训练即可应对室内外新环境;多任务统一架构可同时处理目标跟随、自主导航等差异化需求;跨本体适配性支持从四足机器人到汽车等异构平台的快速迁移。其底层技术突破依赖于两项关键设计:TVI Tokens通过时空标记解决多视角视频的连贯理解问题,而BATS策略则实现算力资源的动态优化分配,使7B参数级模型能在真实设备上实现毫秒级响应。
训练数据规模达到行业前所未有的水平,整合1200万条跨任务、跨本体数据,覆盖八种机器人形态和五大导航任务类型。在VLN-CE等国际基准测试中,NavFoM不仅刷新多项SOTA记录,更展现出强大的跨任务泛化能力——同一模型无需微调即可驱动无人机复杂地形飞行、轮式机器人混合场景导航等差异化需求。
基于这一基座模型,银河通用已衍生出三个专项应用:TrackVLA++实现30分钟长程稳定跟随,UrbanVLA打通第三方地图实现城市级路径规划,MM-Nav则攻克透明障碍物避障难题。这些进展标志着机器人开始具备类人的空间认知与方向感,为具身智能突破固定场景限制奠定基础。随着导航能力从结构化环境向开放世界的延伸,人机协同在物流、服务等领域的规模化落地进程有望显著加速。
原文和模型
【原文链接】 阅读原文 [ 1783字 | 8分钟 ]
【原文作者】 机器人前瞻
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★☆☆




