MiniCPM-o 4.5 技术报告发布：全双工全模态 API 开放，RTX5070 即可实时运行

237 0 0

文章摘要

面壁智能联合清华大学开源九亿参数模型，成功构建业界首个支持端到端全双工全模态交互的智能系统。该系统突破传统轮次对话的时序割裂，依托首创的Omni-Flow流式架构，将视频画面、环境声音与文本指令精准对齐至毫秒级时间轴。计算单元在极短周期内循环执行环境感知与意图推理，原生支持实时语音打断与动态意图引导，彻底摒弃对外部语音活动检测组件的依赖。底层流式机制使人机信息交换真正匹配人类并行处理感官输入的交流节奏。

技术实现采用高度解耦且紧密协作的端到端拓扑结构，多模态特征提取层与语言基座通过逐词元组状态深度融合，声学生成任务被独立分配至轻量化专用解码器，有效规避复杂声波建模对通用逻辑推理能力的资源挤占。结合时分复用调度与TAIL时序交织策略，系统在保障跨片段语音自然流畅的同时实现输出低延迟。经过底层量化与计算图重构优化，全量级模型仅需十二千兆图形显存便可在消费级硬件平台上稳定驱动实时双工对话。开源计划同步释放全栈演示代码、跨平台本地部署工具与标准化交互接口，显著压缩工程化落地周期。

多维度性能评估证实，该架构在综合视觉解析任务中达到旗舰级别水准，在音视频实时联合推理基准中实现指标全面领先，语音合成准确度与情感表达维度优于主流对比模型。全链路本地化数据流转机制保障交互记录物理隔离，有效应对高隐私场景要求及复杂无网络环境适配。持续性感知与即时反馈能力精准对接视觉障碍辅助、智能驾驶态势预警及具身机器人交互等连续决策场景，标志智能代理向高实时性主动协作范式演进。现阶段系统在长时间运行稳定性与复杂环境抗干扰层面仍具优化潜力，流式多模态架构的深入迭代将持续拓宽边缘计算与端侧智能的应用边界。