罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队

AI-Agent2小时前发布 ai-front
47 0 0
罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队

 

文章摘要


【关 键 词】 小米MiMo模型大模型AI技术开源

罗福莉作为Xiaomi MiMo大模型负责人首次公开亮相,在2025小米人车家全生态合作伙伴大会上介绍了新一代开源大模型MiMo-V2-Flash。该模型采用混合专家(MoE)架构,总参数规模达3090亿,但每次推理仅激活约150亿参数。在通用基准测试中表现与DeepSeek-V3.2相当,同时具备更高性价比和Agent场景适配性,特别集成了多词元预测(MTP)技术实现2-3倍推理加速。

技术架构方面,模型通过混合注意力机制(Hybrid Attention)平衡局部与全局信息处理,其中滑动窗口注意力占比5:1。在SWE-Bench测试中,其以71.7%准确率在多语言模式下取得领先。推理效率表现突出,单机吞吐量达5000-15000 token/s,成本较同类产品降低20倍。后训练阶段采用创新的Multi-Teacher On-Policy Distillation范式,实现高效能力迁移。

罗福莉指出当前大模型的本质局限:语言模型仅解码文本空间的人类思维投影,缺乏物理世界理解。MiMo-V2-Flash的设计目标聚焦三大现实挑战:提升Agent的代码工具能力、优化低交互带宽下的推理效率、构建适应后训练范式的稳定体系。模型在Agent、代码和复杂任务执行方面已进入第一梯队,但仍是AGI发展路径的阶段性成果。

对于智能体进化方向,她提出下一代系统需突破语言模拟器范畴,建立动态世界模型以实现环境交互。关键技术跃迁将体现在任务完成能力与环境交互潜能的结合,这要求智能体具备记忆、自主决策等核心能力。开源被视作加速AGI普惠化的关键机制,小米同步开放了模型权重、技术报告及API接口。

技术实现细节显示,三层MTP并行架构在单请求中实现150 token/s输出速度。与DeepSeek-V3.2相比,推理速度提升约3倍;对比Gemini 2.5 Pro,成本效益提升20倍。模型已展现初级世界模拟能力,如通过HTML模拟操作系统或天体运行,但真正的突破需建立在物理一致性理解基础上。罗福莉强调,智能的本质应通过与真实环境持续交互来塑造,而非仅从文本数据中推导。

原文和模型


【原文链接】 阅读原文 [ 3510字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...