Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径

60 0 0

文章摘要

AI行业正从单纯追求参数规模与能力上限，转向兼顾预训练效率与算力成本的务实路线。为解决模型训练成本攀升的难题，技术团队提出词元叠加训练技术。该技术将预训练划分为叠加与恢复两个连续阶段。在初期阶段，模型摒弃逐词精读模式，将连续词元分组打包并计算平均向量表征，以粗粒度形式学习局部语义与词汇共现分布，同时调整预测目标为下一组词元。待基础语言结构建立后，训练无缝切换至标准自回归预测，以确保最终模型具备合规的逐词生成与部署能力。作为即插即用的训练策略，该方案全程无需修改模型底层架构、推理引擎或优化器配置，彻底剥离了训练端创新对服务侧带来的适配成本。

实测数据表明，引入该方法可将百亿参数模型的预训练算力消耗降至基线的四成左右，实现约二点五倍的迭代提速，并在多项下游评测中取得指标突破。该机制通过牺牲训练早期的局部序列顺序信息，换取单位算力下数倍的原始文本处理能力，本质是以更高数据吞吐压缩有效信息获取时间。与依赖系统级重构的降本路径相比，此方案聚焦于早期认知学习曲线调整。在研发预算恒定的前提下，早期吞吐效率的倍增能够大幅拓宽数据配方验证与超参扫描的窗口期。实验进一步证实，合理设定词元打包规模与叠加训练占比即可获取稳定收益，且完整技术需输入端降维与输出端监督协同发力。预训练提效的核心正由重体力工程优化向学习路径精细化干预转变。该技术验证了调整语言习得顺序是拉升资源利用率的底层杠杆，为垂直领域模型孵化提供了兼顾成本控制与落地兼容的高效范式。