0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级

AIGC动态15小时前发布 QbitAI
39 0 0
0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级

 

文章摘要


【关 键 词】 大模型强化学习自我更新知识注入小样本学习

MIT提出的SEAL(Self-Adapting LLMs)框架标志着大模型技术迈入自主进化新阶段。该框架通过内外双循环机制,首次在权重层面实现了模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。外层强化学习系统生成自然语言形式的self-edit指令,内层则执行基于指令的LoRA微调,形成闭环优化系统。

知识注入实验中,SEAL展现出卓越的知识整合能力。使用Qwen2.5-7B模型处理SQuAD数据集时,其47.0%的准确率不仅超越原始模型32.7%的表现,甚至优于采用GPT-4.1合成数据的46.3%。面对200段落的长文本场景,准确率进一步提升至58.2%,证明该方法具备规模化应用潜力。这种自我生成训练数据的能力,有效解决了传统微调对人工标注数据的依赖问题。

小样本学习测试中,SEAL同样表现出色。在ARC-AGI图形推理任务中,LLaMA-3.2-1B-Instruct模型通过自主设计的训练策略达到72.5%成功率,远超固定few-shot提示的零成功率。虽然不及人工最优策略的100%准确率,但作为完全自主探索的学习路径,这一成果验证了框架在任务适应性方面的突破性进展。

SEAL的核心创新在于其ReSTEM强化学习算法。该算法采用行为克隆与过滤采样相结合的方式,通过评估多个self-edit候选方案的微调效果,筛选有效指令进行策略优化。相比传统PPO方法,这种期望最大化过程具有训练稳定、结构简单的优势,特别适合大模型的生成行为学习任务。实验表明,模型能逐步发展出更高效的自我训练策略,形成”学会如何学习”的良性循环。

这项研究为大模型的持续进化提供了新范式。通过将训练数据生成、参数更新策略设计等关键环节交给模型自主决策,SEAL实现了真正意义上的自主学习能力。未来,这种机制有望应用于更复杂的学习场景,推动AI系统向具备长期自我优化能力的通用智能体方向发展。研究者已公开论文和项目主页,为后续技术迭代奠定基础。

原文和模型


【原文链接】 阅读原文 [ 1666字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...