文章摘要
【关 键 词】 AI技术、大模型训练、系统优化、故障处理、GPU集群
字节跳动开发的ByteRobust系统在计算机系统顶级会议SOSP 2025上亮相,该系统专为大规模语言模型(LLM)训练设计,部署在超过20万张GPU的生成平台上。通过在9600张GPU上进行为期三个月的训练,系统实现了97%的有效训练时间(ETTR),刷新了训练稳健性的最高水平。随着LLM训练规模扩大至数万块GPU,故障频率也随之增加,CUDA错误、NaN值和任务挂起等问题对训练稳定性构成严峻挑战。大规模LLM训练基础设施必须满足三个核心诉求:最少的训练中断、高效的故障诊断和有效的故障容错。
ByteRobust系统通过发挥LLM训练的并行性和自身特性,实现了高容量的故障容错、快速的故障界定和定位。系统由控制平面和数据平面两个核心组件构成。控制平面独立于训练作业运行,负责协调稳健的事件处理策略,检测异常并触发恢复操作。数据平面内嵌于每个训练Pod内部,提供实时监控、诊断和检查点管理等功能。系统通过自动化容错框架,结合实时检查、停机时间诊断和重放测试等方法,显著减少了非生产时间。
在故障处理方面,ByteRobust采用分层策略。实时检查解决了32.52%的故障,重试恢复了22.70%的故障,回滚处理了9.20%的故障。对于隐性故障如任务挂起和性能下降,系统通过聚合分析堆栈跟踪信息准确定位问题机器。恢复训练时,系统引入懒惰热更新机制和温备用实例,快速替换缺失的机器以最小化停机时间。检查点操作通过分层方案和备份策略,确保在过度驱逐情况下仍能保持可用性。
实际部署数据显示,ByteRobust在三个月内识别了38236个显式故障和5948个隐性故障。在16384块GPU上的微基准实验中,温备用和热更新机制分别实现了10.87倍和11.04倍的恢复速度提升。系统在9600块GPU的训练作业中达到97%的ETTR,证明其在大规模LLM训练中的高效性和稳定性。ByteRobust的设计理念包括优先快速隔离、考量人为错误和控制变异性,为大规模LLM训练的稳定性和效率树立了新标准。
原文和模型
【原文链接】 阅读原文 [ 4475字 | 18分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




