标签:大模型训练

豆包背后的“超算大脑”:字节ByteRobust系统跑20多万张GPU,性能刷新SOTA

字节跳动开发的ByteRobust系统在计算机系统顶级会议SOSP 2025上亮相,该系统专为大规模语言模型(LLM)训练设计,部署在超过20万张GPU的生成平台上。通过在96...

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

数月前,苹果基础模型团队负责人庞若鸣离职加入 Meta,但他在苹果参与的工作仍不断有高价值研究发表。此次介绍的论文 “Synthetic bootstrapped pretraining” ...

微软、哈佛开源创新优化器:全面超越Muon,提升大模型训练效率

大模型训练所需计算资源随功能增强呈爆炸式增长,优化器可节省训练资源。此前的Muon优化器虽有优势,但在大规模训练中应用效率低。为此,微软和哈佛大学研究...

关于机器人数据,强化学习大佬Sergey Levine刚刚写了篇好文章

训练大型模型在机器人领域面临的核心挑战在于获取真实世界交互数据的成本极高。视觉-语言-动作模型(VLA)需要大量机器人执行任务的真实数据,这类数据的采集...

DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

DeepSeek V3/R1等大模型在开源社区广泛应用的背景下,如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...

DeepSeek并非完美,训练过程存在“深度诅咒”

近年来,高性能大模型的训练面临深层网络效率低下的难题。研究表明,以DeepSeek、Qwen、Llama和Mistral为代表的模型在训练过程中,深层网络对整体性能的贡献...

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

群组相对策略优化(GRPO)作为一种在线学习算法,通过使用训练过程中由模型自身生成的数据进行迭代改进,已因其高效性和易用性成为大型语言模型强化学习中的...

大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当

微软研究院最近推出了首个FP4精度的大模型训练框架,这一技术能够在保持与FP8和BF16相当的训练效果的同时,显著减少所需的存储和计算资源。该框架支持高达130...

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

火山引擎在视频云技术大会上推出了大模型训练视频预处理方案,旨在解决视频大模型训练中的成本、质量和性能挑战。该方案通过统一视频数据格式、提升数据质量...

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

随着大模型迭代速度的加快和训练集群规模的增大,软硬件故障已成为提高训练效率的瓶颈。为此,字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint,...
1 2