标签:智能反思

让AI学习效率飙升50倍的秘密:在线策略蒸馏

Thinking Machines Lab的最新研究《On-Policy Distillation》提出了一种颠覆性的AI训练方法,旨在通过实时指导优化模型的学习过程。传统训练方式分为监督微调...