月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%

AIGC动态4小时前发布 QbitAI
152 0 0
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%

 

文章摘要


【关 键 词】 强化学习加速引擎性能优化长尾延迟资源调度

月之暗面联合清华大学提出的全新加速引擎Seer,通过创新技术显著提升大语言模型(LLM)的强化学习训练效率。该系统针对传统RL训练中生成阶段(rollout phase)存在的长尾延迟、资源利用率低等问题,设计了三大核心模块和三项关键技术,实现了同步RL的Rollout效率提升74%~97%,长尾延迟减少75%~93%。Seer的突破性在于在不改变核心训练算法的前提下,通过架构创新全面优化了内存、调度和推理效率。

核心架构包含推理引擎池、请求缓冲区和上下文管理器。其中,全局KVCache池的复用机制避免了提示词重复编码,分段生成技术将响应拆解为独立片段并动态迁移,使内存波动降低40%以上。上下文感知调度通过”先探路+后调度”策略预测组内请求特征,将长尾延迟压缩至传统系统的13%。自适应分组推测解码则利用组内响应模式相似性构建动态参考库,相比静态推测解码吞吐量提升2.1倍。

实验验证显示,在Moonlight、Qwen2-VL-72B等模型任务中,Seer的吞吐量达到理想Oracle调度方案的95%,最后10%请求的完成时间从3984秒缩短至364秒。专项测试证明,上下文感知调度使长尾延迟降低85%,而结合组内模式上下文与自适应参数的推测解码技术,能随rollout推进动态提升30%的接受长度。这些技术创新有效解决了RL训练中负载失衡、资源碎片化等关键瓶颈。

值得注意的是,月之暗面正推进数亿美元规模的新一轮融资,估值或达40亿美元。该公司与腾讯等投资方的洽谈进展顺利,预计明年启动IPO进程。Seer技术的突破不仅为LLM训练效率树立新标杆,也可能加速月之暗面在AI基础设施领域的商业化布局。该系统的设计思路为分布式RL训练提供了可扩展的解决方案,其上下文感知和动态调度的理念对优化其他AI训练框架具有借鉴意义。

原文和模型


【原文链接】 阅读原文 [ 1589字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...