AI能帮忙厨房看火了!面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答

AIGC动态2小时前发布 QbitAI
66 0 0
AI能帮忙厨房看火了!面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答

 

文章摘要


【关 键 词】 AI模型多模态端侧部署全双工智能交互

面壁智能开源的全模态模型MiniCPM-o4.5标志着AI交互方式的重大突破。该模型首次实现了边看、边听、主动说的全双工交互能力,打破了传统AI”一问一答”的串行模式。在厨房场景中,它能主动识别空气炸锅的提示音;在超市场景中,可实时追踪变化的商品信息;在电梯场景中,能持续监控楼层变化并主动提醒。这种持续感知环境并适时介入的能力,使AI从”对讲机”升级为”在场助手”。

技术实现上,MiniCPM-o4.5采用全双工多模态实时流机制,通过时分复用技术解决I/O阻塞问题。模型在生成输出的同时,视觉和听觉模态仍能持续更新输入信息,语音侧采用文本与语音token交错建模,实现了毫秒级的流式处理。其1Hz的语义判断频率替代了传统VAD静音检测机制,使得模型既能被自然打断,又能基于场景理解主动发起对话。在仅9B参数规模下,该模型已在全模态理解、视觉解析等多项任务中达到领先水平。

端侧部署是MiniCPM-o4.5的核心特征。面壁智能从2022年就专注端侧AI研发,强调软硬协同的技术路线。模型训练阶段即针对端侧芯片优化,与硬件厂商深度合作设计算子和架构。即将发布的松果派开发板将实现”开箱即用”,解决端侧模型落地的最后一公里问题。这种端原生策略既保障了隐私安全,又满足了实时性要求,为智能座舱、机器人等场景提供基础支持。

全双工交互背后是AI范式的转变。Clawdbot的案例证明,持续在场的AI比问答式AI更具实用价值。MiniCPM-o4.5的突破在于让AI在说话时仍保持环境感知,使数字世界与现实世界的流动保持同步。这对具身智能、即时辅助等场景具有奠基意义——感知、决策和行动不再是离散步骤,而是融合的连续过程。面壁智能将这种能力定义为”全模态基础模型”,未来将延伸至更多终端形态。

商业层面,面壁智能选择聚焦差异化终端和长尾场景的端侧市场。通过将9B参数模型的性能优化到极致,避开云端大模型的算力竞赛,在智能硬件、车载系统等垂直领域建立壁垒。这种”只做端,把端做到极致”的战略,使其在日益拥挤的AI赛道中保持独特定位。随着MiniCPM-o4.5的开源,开发者可基于该模型快速构建实时交互应用,加速端侧AI生态的成熟。

原文和模型


【原文链接】 阅读原文 [ 3111字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...