Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

AIGC动态11个月前发布 almosthuman2014

2,437 0 0

文章摘要

【关键词】 大模型训练、Checkpoint系统、软硬件故障、存储性能、异步张量合并

随着大模型迭代速度的加快和训练集群规模的增大，软硬件故障已成为提高训练效率的瓶颈。为此，字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint，这是一个PyTorch原生、兼容多个训练框架、支持高效读写和自动重新切分的大模型Checkpointing系统。该系统在Checkpoint保存性能上提升了529.22倍，在加载性能上提升了3.51倍，显著降低了用户的使用成本，提高了系统的易用性。

Checkpoint技术在大模型训练中面临四大挑战：现有系统设计增加额外I/O开销、Checkpoint重新切分困难、不同训练框架Checkpoint模块割裂、分布式训练系统用户面临多重困扰。ByteCheckpoint通过元数据/张量数据分离的存储架构，实现了Checkpoint管理与训练框架和并行度的解耦合。针对不规则张量切分问题，提出了异步张量合并技术，消除了频繁的同步开销。系统架构上，API层提供统一接口，Planner层生成存取方案，Execution层执行I/O任务并与Storage层交互，利用I/O优化技术实现高性能Checkpoint存取。

ByteCheckpoint在存储性能测试中，相比基线方法在各类实验场景中均取得了显著的性能提升，最高可达529.22倍。在读取性能测试中，也取得了1.55～3.37倍的性能提升。未来，团队希望实现支持超大规模GPU集群训练任务的高效Checkpointing，以及全生命周期的Checkpoint管理。

字节跳动豆包大模型团队成立于2023年，致力于开发业界最先进的AI大模型技术，成为世界一流的研究团队。团队正在持续吸引优秀人才加入，鼓励成员不断学习和成长，追求卓越。