文章摘要
【关 键 词】 AI模型、循环推理、参数效率、潜在空间、自适应计算
Ouro模型通过循环语言模型(LoopLM)的全新范式,在预训练阶段就内化了推理能力,仅用14亿参数就实现了百亿级模型的性能。这一突破性技术由字节、加州大学等顶尖机构联合研发,其核心在于三大创新:潜在空间迭代计算、熵正则化目标以及7.7万亿tokens的超大规模训练数据。模型名称源自衔尾蛇的循环意象,其架构采用参数共享的循环结构,通过4个循环步骤实现深度推理,同时结合旋转位置嵌入等技术保障稳定性。实验证明,14亿参数的Ouro 1.4B在数学推理任务GSM8K上得分78.92,超越40亿参数的基准模型;2.6B版本更在专业评测中全面碾压80亿参数模型。
自适应计算机制是模型的关键设计之一。每一轮循环通过退出门动态判断思考深度,简单问题仅需1-2次循环,复杂问题则触发更深层次计算。熵正则化目标的引入有效防止模型陷入固定思考深度的惰性模式,使计算资源分配更智能。训练过程分为四个精密阶段:从基础预训练到长上下文专项训练,最终整合20多组高质量数据集。这种设计让模型在保持参数效率的同时,展现出对知识组合运用的卓越能力。
与传统思维链推理相比,Ouro的潜在推理范式具有显著优势。其推理过程在隐藏状态的高维空间完成,如同人类顿悟,避免了文字符号的带宽限制。研究显示,模型推理轨迹与答案的因果关联度更高,证明其并非事后构建合理解释。虽然继承自2018年通用变换器的思想,但Ouro通过万亿级训练验证了循环架构的大规模可行性,并将动态计算深度发展为新的技术维度。
该模型为边缘计算等资源受限场景提供新可能,其2-3倍的参数效率意味着移动设备可搭载更强AI。当前挑战在于现有推理框架对动态计算支持不足,以及如何强化这类架构的对齐能力。这项工作不仅确立了循环深度作为模型规模、数据量之外的第三扩展轴,更揭示了通过架构创新提升智能的有效路径,为AI发展开辟了新的技术方向。
原文和模型
【原文链接】 阅读原文 [ 2173字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




