标签:强化学习
Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
LoRA(低秩适配)作为一种参数高效微调方法,在特定条件下能够与全参数微调(FullFT)达到相近性能。 Thinking Machines的最新研究通过监督微调和强化学习实...
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
普林斯顿大学陈丹琦团队最新研究提出基于模型奖励思维的强化学习(RLMT)方法,旨在弥合专门推理能力与通用对话能力之间的差距。该方法通过将显式的思维链推...
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
在 RL China 2025 开幕式的思想对话中,图灵奖得主、“强化学习之父”Richard Sutton 与伦敦大学学院汪军教授共探智能的本质与未来方向。Richard 认为大模型缺...
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑
9月17日,开源AI“顶流”DeepSeek的推理模型研究论文DeepSeek - R1以通讯作者梁文锋的名义发表于国际顶尖期刊《自然》并登上封面,标志国产AI研究迈入世界舞台...
稚晖君机器人炸场:全球首秀“真男人必会的韦伯斯特空翻”
智元的灵犀X2成为全球首个完成韦伯斯特空翻的机器人,引发广泛关注。韦伯斯特空翻是中高级空翻技巧,对腿部爆发力和协调性要求高,网友评论戏称“真机器人,也...
清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
强化学习(RL)在人工智能发展中一直是重要方法,自1998年概念提出后,在多个领域取得显著成果。进入大模型时代,RL最初用于让模型更符合人类偏好,近年来研...
SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
我们已进入大模型时代,大模型成为智能化基础设施核心,支撑多种下游应用,但多数模型是细分领域任务的专家,离通用人工智能(AGI)尚远,且存在“灾难性遗忘”...
AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊
RoboBallet是由DeepMind、Intrinsic AI和UCL等研究机构共同提出的成果,发表在Science子刊Science Robotics上。这一成果创新性地将图神经网络(GNN)用于强化...
小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%
Meta超级实验室「Meta Superintelligence Labs,MSL」的三位成员上传ArXiv论文,探索利用强化学习(RL)高效微调大语言模型(LLM),使LLM在推理时实现迭代自...
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
大语言模型的发展迅速,后训练的强化学习算法不断演进。从 PPO 到 GRPO 再到后续改进算法,都在不断提升模型性能与稳定性。后训练与强化学习的重要性:大语言...





