刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」

刚刚,面壁小钢炮开源进阶版「Her」,9B模型居然有了「活人感」

 

文章摘要


【关 键 词】 AI交互全双工模型多模态感知实时响应自主决策

当前AI交互普遍存在机械感强、缺乏实时响应能力的问题,根源在于传统模型采用单工模式运行,无法实现输入输出的并行处理。面壁智能开源的MiniCPM-o 4.5模型通过全双工全模态架构突破这一限制,首次实现”边看边听边说”的自主交互能力。该模型仅9B参数量却在OpenCompass综合评估中取得77.6分,在MMBench视觉理解、MathVista数学推理等8项任务中超越Gemini 2.5 Flash等闭源模型。

核心突破体现在全双工架构与自主交互机制的结合。技术层面采用时间对齐与时分复用、循环分块编码、端到端语音生成三项设计,使模型在生成输出的同时持续感知环境变化。实测显示,在”我画你猜”游戏中,模型能根据笔画变化实时修正判断;面对微波炉场景时,不仅能准确识别加热对象,还能主动提醒计时结束。相较之下,ChatGPT等模型在相同测试中表现出明显的响应迟滞和被动性。

自主交互机制使模型摆脱对外部语音检测模块的依赖。通过每秒一次的语义级自主决策,模型可内生判断发言时机,实现极低延迟回复、智能抗干扰和异步主动交互。这种能力在纸牌游戏测试中尤为突出——模型不仅能流畅描述牌面,还能在警报响起时立即终止游戏。这种”类人感知+交互沟通”的特性,使AI首次具备主动提醒、实时评论等拟人化交互能力。

技术实现上,模型通过稠密隐藏层连接实现语音情感动态调整,显著提升拟真度。流式处理架构将多模态输入切分为微秒级分块循环处理,确保在输出过程中不中断环境感知。这种设计使模型在终端设备部署时,既能保障隐私安全,又能满足毫秒级响应需求,为智能眼镜、具身机器人等场景提供真正的”会沟通的大脑”。

该技术标志着多模态交互从功能增强向体验质变的转型。面壁智能提出的Densing Law理念,通过提升小模型能力密度而非单纯扩大参数量,为端侧AI部署开辟新路径。当AI具备持续感知和适时回应能力时,人机关系将从工具使用进阶为协同工作与情感陪伴,这可能是继大模型之后的下一个范式转换起点。

原文和模型


【原文链接】 阅读原文 [ 4390字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...