文章摘要
【关 键 词】 语言模型、类脑架构、高效训练、推理能力、开源模型
由清华学者创立的Sapient Intelligence团队推出了一款名为HRM-Text的语言模型,该模型通过类脑架构和训练目标的联合设计,大幅降低了预训练的算力门槛。HRM-Text仅使用十亿参数和极少的训练数据,便在多个推理密集型基准测试中取得了超越同级别模型的优异成绩,实现了超越缩放定律的高效预训练。
在架构设计方面,HRM-Text借鉴了人类大脑额顶回路的多时间尺度组织方式,采用分层架构替代传统的链式思考。模型内部包含负责规划的慢速战略层和负责局部迭代的快速执行层,通过循环结构提升了有效深度,确保每一层都能产生有意义的表征变化。为解决循环结构带来的梯度不稳定问题,团队引入了创新归一化方法和预热深度信用分配策略,有效兼顾了前向传播的方差控制与反向传播的优化稳定性。
在训练目标上,HRM-Text摒弃了传统的自回归预训练方式,转而仅使用指令与响应对进行训练,并将优化目标集中于响应部分的负对数似然。这种条件生成目标结合前缀语言模型的注意力掩码机制,使模型能够更充分地理解指令,显著提升了训练数据的信号密度与计算效率。
实验结果表明,HRM-Text在仅消耗同级别模型极小比例算力的情况下,在数学和逻辑推理任务上表现突出,但在广谱知识覆盖上仍受限于数据规模与模型体量。这一关键发现证明了特定的结构先验和针对性训练目标能够彻底改变算力到性能的转化比,并为未来将推理核心与事实性知识解耦提供了重要的存在性证明。目前,该模型的代码和权重已全面开源。
原文和模型
【原文链接】 阅读原文 [ 1897字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 qwen3.7-max
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



