标签:蒸馏
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文,探讨了在推理模型训练中蒸馏数据源的重要...
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...