AI能帮忙厨房看火了！面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

382 0 0

文章摘要

面壁智能开源的全模态模型MiniCPM-o4.5标志着AI交互方式的重大突破。该模型首次实现了边看、边听、主动说的全双工交互能力，打破了传统AI”一问一答”的串行模式。在厨房场景中，它能主动识别空气炸锅的提示音；在超市场景中，可实时追踪变化的商品信息；在电梯场景中，能持续监控楼层变化并主动提醒。这种持续感知环境并适时介入的能力，使AI从”对讲机”升级为”在场助手”。

技术实现上，MiniCPM-o4.5采用全双工多模态实时流机制，通过时分复用技术解决I/O阻塞问题。模型在生成输出的同时，视觉和听觉模态仍能持续更新输入信息，语音侧采用文本与语音token交错建模，实现了毫秒级的流式处理。其1Hz的语义判断频率替代了传统VAD静音检测机制，使得模型既能被自然打断，又能基于场景理解主动发起对话。在仅9B参数规模下，该模型已在全模态理解、视觉解析等多项任务中达到领先水平。

端侧部署是MiniCPM-o4.5的核心特征。面壁智能从2022年就专注端侧AI研发，强调软硬协同的技术路线。模型训练阶段即针对端侧芯片优化，与硬件厂商深度合作设计算子和架构。即将发布的松果派开发板将实现”开箱即用”，解决端侧模型落地的最后一公里问题。这种端原生策略既保障了隐私安全，又满足了实时性要求，为智能座舱、机器人等场景提供基础支持。

全双工交互背后是AI范式的转变。Clawdbot的案例证明，持续在场的AI比问答式AI更具实用价值。MiniCPM-o4.5的突破在于让AI在说话时仍保持环境感知，使数字世界与现实世界的流动保持同步。这对具身智能、即时辅助等场景具有奠基意义——感知、决策和行动不再是离散步骤，而是融合的连续过程。面壁智能将这种能力定义为”全模态基础模型”，未来将延伸至更多终端形态。

商业层面，面壁智能选择聚焦差异化终端和长尾场景的端侧市场。通过将9B参数模型的性能优化到极致，避开云端大模型的算力竞赛，在智能硬件、车载系统等垂直领域建立壁垒。这种”只做端，把端做到极致”的战略，使其在日益拥挤的AI赛道中保持独特定位。随着MiniCPM-o4.5的开源，开发者可基于该模型快速构建实时交互应用，加速端侧AI生态的成熟。