小米万亿模型全面开源：MIT 协议、1M 上下文，但还是打不过 DeepSeek

356 0 0

文章摘要

伴随自主智能体系统的广泛应用，计算成本管控成为行业核心痛点，商业计费逻辑已全面转向按实际资源消耗结算。真正的模型竞争力已不再局限于底层单价的博弈，而在于以更精简的Token消耗量维持同等任务执行力，高效架构结合智能体工作流成为突破成本内卷的关键路径。基准验证表明，Pro版本在长链路任务轨迹中的计算开销较多家头部竞品缩减近半数。配合分级订阅套餐与阶段性缓存减免政策，平台旨在降低开发者试错门槛，加速技术向持久化、自动化代理服务的转型。

架构层面，全系列依托稀疏混合专家网络设计。基础版历经多阶段数据训练以强化多模态感知底座；Pro版总规模突破万亿参数，活跃层大幅精简。系统引入局部滑动窗口与全局视线交错的注意力机制，将键值缓存压力压缩近七成，并配备多级词元预测模块将推理吞吐量提升约三倍。后续训练阶段着重聚焦超长指令遵循精度与执行过程的错误自愈能力。实测反馈指出，模型在前期技术调研与方案构思领域表现优异，但在缺乏外部明确报错的深度排错环节仍存在局限，需依赖外部反馈指引方能精准定位隐蔽缺陷。该技术演进路线整体侧重工程落地可行性与算力使用效益的动态平衡。