标签:可预测性

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

在大型语言模型(LLM)领域,强化学习(RL)的算力扩展正成为关键研究范式,但其扩展规律尚未明确。Meta等机构的研究者通过40万GPU小时的实验,提出了可预测R...