美团新独立APP，点不了菜只能点AI

599 0 0

文章摘要

美团最新开源的多模态模型LongCat-Flash-Omni实现了全模态实时交互能力，在Omni-Bench等综合性基准测试中超越同类开源模型，达到与闭源Gemini-2.5-Pro相当的水平。该模型采用560B总参数与27B激活参数的MoE架构，通过”大总参小激活”设计平衡知识容量与推理效率，成为当前首个支持文本、图像、音频、视频全模态实时处理的开源模型。实测显示，其生成首个token的响应时间极短，在复杂环境语音识别、多模态问答及物理仿真等场景中表现稳定。

模型技术突破主要体现在三方面：ScMoE端到端统一架构支持任意模态组合输入，分块式音视频特征交织策略实现低延迟流式处理，128K tokens上下文窗口支持超8分钟音视频交互。训练阶段采用渐进式多模融合与模态解耦并行方案，通过早期跨模态对齐和独立优化编码器性能，解决多模态模型普遍存在的训练效率低下问题。值得注意的是，该模型延续了LongCat系列”快基因”，在保持Flash系列响应速度的同时，将专业问答能力扩展至全模态领域。

美团近期的技术布局呈现出清晰的战略路径：软件层面通过”世界模型”构建数字与物理世界的连接接口，硬件层面以具身智能投资完善实体交互能力。自2018年起，该公司已系统投资自动驾驶、AI芯片及服务机器人领域，其无人机配送网络已覆盖中国全境。在2025机器人研究院年会上，美团明确将未来5-10年的技术范式定位为具身智能，通过低空-地面-社区的立体化服务网络，实现零售场景的系统效率跃迁。

这种”世界模型+具身智能”的双轨策略，本质是通过算法与硬件的协同进化，重构物理世界的计算与调度体系。从LongCat模型的迭代轨迹可见，美团先以速度建立交互基础，再深耕专业场景能力，最终向全模态扩展。最新开源的Omni模型既是对多模态技术瓶颈的突破，也是其连接比特与原子战略的关键基础设施。随着视频生成等功能的持续完善，这套技术体系或将进一步缩小开源与闭源模型在复杂场景应用中的差距。