CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

56 0 0

文章摘要

杭州Om AI团队发布了全球首个面向物理世界的端侧流式多模态模型系列VLX，该系列专为真实世界的端侧与具身场景打造。VLX系列包含三款模型，分别负责实时流式感知、精准定位和行动决策，共同构建了多模态模型在物理世界中的能力闭环。

流式多模态技术旨在让人工智能在物理世界中持续、实时地感知环境。VLX-Flow采用流式处理机制与注意力技术，结合双层记忆机制，使模型能够持续接收视频信息并实时更新环境认知，解决了传统模型计算成本高且易丢失上下文的问题。VLX-Seek通过区域标记替代传统坐标生成，将定位过程转化为候选区域的检索和匹配，大幅降低端侧部署成本并保持精确定位表现。VLX-Go将感知与定位结果转化为可执行的短时航点，结合轨迹学习与强化学习，实现了低延迟的实时运动规划。这三款模型共享同一基座，在同一条视频流上完成端到端协作，形成了从看见、看清到行动的完整能力链。

在架构设计上，VLX摒弃了先将云端大模型压缩再部署到端侧的传统路径，而是从一开始就基于端侧算力约束重新设计整个系统。这种原生端侧设计使得模型在架构、推理方式和部署链路上高度契合实时视频流和端侧设备的运行需求，实现了低延迟与低功耗下的高效稳定运行。VLX并非通用视觉语言模型的简单端侧化，而是一种全新的模型形态，专为机器人与无人机等物理世界设备在有限算力下持续理解环境并完成行动闭环而生。

Om AI团队作为国内早期布局多模态领域的先行者，曾推出多项知名开源项目。此次发布的模型系列标志着多模态技术从静态图像理解向动态物理世界交互迈出了关键一步。该系列致力于构建端侧人工智能时代原生的基础设施，让模型真正融入物理世界并实现持续的实时响应与自主行动。