标签：可预测性

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

在大型语言模型（LLM）领域，强化学习（RL）的算力扩展正成为关键研究范式，但其扩展规律尚未明确。Meta等机构的研究者通过40万GPU小时的实验，提出了可预测R...

AIGC动态

5个月前