豆包背后的“超算大脑”：字节ByteRobust系统跑20多万张GPU，性能刷新SOTA

51 0 0

文章摘要

字节跳动开发的ByteRobust系统在计算机系统顶级会议SOSP 2025上亮相，该系统专为大规模语言模型（LLM）训练设计，部署在超过20万张GPU的生成平台上。通过在9600张GPU上进行为期三个月的训练，系统实现了97%的有效训练时间（ETTR），刷新了训练稳健性的最高水平。随着LLM训练规模扩大至数万块GPU，故障频率也随之增加，CUDA错误、NaN值和任务挂起等问题对训练稳定性构成严峻挑战。大规模LLM训练基础设施必须满足三个核心诉求：最少的训练中断、高效的故障诊断和有效的故障容错。

ByteRobust系统通过发挥LLM训练的并行性和自身特性，实现了高容量的故障容错、快速的故障界定和定位。系统由控制平面和数据平面两个核心组件构成。控制平面独立于训练作业运行，负责协调稳健的事件处理策略，检测异常并触发恢复操作。数据平面内嵌于每个训练Pod内部，提供实时监控、诊断和检查点管理等功能。系统通过自动化容错框架，结合实时检查、停机时间诊断和重放测试等方法，显著减少了非生产时间。

在故障处理方面，ByteRobust采用分层策略。实时检查解决了32.52%的故障，重试恢复了22.70%的故障，回滚处理了9.20%的故障。对于隐性故障如任务挂起和性能下降，系统通过聚合分析堆栈跟踪信息准确定位问题机器。恢复训练时，系统引入懒惰热更新机制和温备用实例，快速替换缺失的机器以最小化停机时间。检查点操作通过分层方案和备份策略，确保在过度驱逐情况下仍能保持可用性。

实际部署数据显示，ByteRobust在三个月内识别了38236个显式故障和5948个隐性故障。在16384块GPU上的微基准实验中，温备用和热更新机制分别实现了10.87倍和11.04倍的恢复速度提升。系统在9600块GPU的训练作业中达到97%的ETTR，证明其在大规模LLM训练中的高效性和稳定性。ByteRobust的设计理念包括优先快速隔离、考量人为错误和控制变异性，为大规模LLM训练的稳定性和效率树立了新标准。