2026年,大模型训练的下半场属于「强化学习云」

AI-Agent17小时前发布 almosthuman2014
100 0 0
2026年,大模型训练的下半场属于「强化学习云」

 

文章摘要


【关 键 词】 AI发展强化学习算力架构智能进化技术突破

2024年底,硅谷和北京的科技圈开始担忧Scaling Law的瓶颈,新一代旗舰模型如GPT-5(Orion)在单纯增加参数和数据规模后未能实现预期效益提升,甚至有研究预测预训练数据将在2028年耗尽。 OpenAI联合创始人Ilya Sutskever的言论暗示单纯依赖算力和数据堆砌的路线可能已触及天花板。然而,2025年初的突破性进展扭转了这一局面:OpenAI的o1模型首次通过强化推理技术证明了测试时间扩展(test-time scaling)的潜力,随后DeepSeek R1的开源复现确立了这一技术路径的可行性,标志着Scaling Law从“预训练扩展”转向“后训练扩展”和“测试时间扩展”

强化学习成为大模型进化的核心引擎。 DeepSeek R1通过强化学习驱动的思维链(CoT)展示了类似人类“慢思考”的深度推理能力,其多阶段训练流程显著降低了技术门槛。九章云极首席科学家缪旭指出,这一突破让行业意识到强化学习能加速模型进化。算力需求的重心随之转移,传统云计算架构因无法适应动态推理负载而面临挑战,催生了新一代基础设施——强化学习云。

九章云极率先定义了强化学习云的标准,其工业级平台Agentic RL于2025年6月发布,通过混合专家(MoE)架构和Serverless理念实现500%的效率提升和60%成本下降。该平台支持万卡级异构算力调度,推动AI从“内容生成”迈向“决策控制”。其技术架构包含异步训练系统、5倍速离线进化算法和安全探索的“世界模型”,旨在将通用模型转化为垂类专家智能体,最终构建群体智能生态。

黄山的“大位”智算中心成为强化学习云落地的标杆。九章云极仅用48天建成500 PFLOPS算力中心,并打造了全球首个“文旅+AI”城市级应用,通过AI伴游智能体实时优化服务策略。这一实践不仅验证了技术可行性,还直接带动当地年经济增长2亿元,形成“智算基建-场景落地-商业闭环”的范式。独立智算云的定位确保了九章云极的中立性,其开源1000个专家模型的计划与AI-STAR生态联盟,进一步巩固了其在标准制定和产业协同中的领军地位。

未来的云计算将步入“进化时代”。九章云极通过强化学习云重新定义了算力价值——从提供静态资源转向赋能动态智能进化。其Agentic RL平台不仅是基础设施,更是硅基智能体的“进化引擎”,为自动驾驶、工业设计等复杂控制问题提供解决方案。在异构算力调度、工程化落地和商业闭环上的突破,使九章云极成为独立智算云赛道的定义者和破局者。

原文和模型


【原文链接】 阅读原文 [ 4517字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...