标签:KL散度

SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门

我们已进入大模型时代,大模型成为智能化基础设施核心,支撑多种下游应用,但多数模型是细分领域任务的专家,离通用人工智能(AGI)尚远,且存在“灾难性遗忘”...