标签:强化学习

亚马逊“盲眼”机器人30秒跑酷首秀惊艳!华人学者领衔

亚马逊机器人团队FAR发布了名为OmniRetarget的人形机器人研究成果,该系统能够在完全无视觉感知的情况下完成复杂动作。OmniRetarget通过交互网格建模机器人、...

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华大学朱军教授团队、NVIDIA Deep Imagination研究组与斯坦福Stefano Ermon团队联合提出了一种名为Diffusion Negative-aware FineTuning(DiffusionNFT)的...

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

LoRA(低秩适配)作为一种参数高效微调方法,在特定条件下能够与全参数微调(FullFT)达到相近性能。 Thinking Machines的最新研究通过监督微调和强化学习实...

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

普林斯顿大学陈丹琦团队最新研究提出基于模型奖励思维的强化学习(RLMT)方法,旨在弥合专门推理能力与通用对话能力之间的差距。该方法通过将显式的思维链推...

汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力

在 RL China 2025 开幕式的思想对话中,图灵奖得主、“强化学习之父”Richard Sutton 与伦敦大学学院汪军教授共探智能的本质与未来方向。Richard 认为大模型缺...

梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑

9月17日,开源AI“顶流”DeepSeek的推理模型研究论文DeepSeek - R1以通讯作者梁文锋的名义发表于国际顶尖期刊《自然》并登上封面,标志国产AI研究迈入世界舞台...

稚晖君机器人炸场:全球首秀“真男人必会的韦伯斯特空翻”

智元的灵犀X2成为全球首个完成韦伯斯特空翻的机器人,引发广泛关注。韦伯斯特空翻是中高级空翻技巧,对腿部爆发力和协调性要求高,网友评论戏称“真机器人,也...

清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路

强化学习(RL)在人工智能发展中一直是重要方法,自1998年概念提出后,在多个领域取得显著成果。进入大模型时代,RL最初用于让模型更符合人类偏好,近年来研...

SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门

我们已进入大模型时代,大模型成为智能化基础设施核心,支撑多种下游应用,但多数模型是细分领域任务的专家,离通用人工智能(AGI)尚远,且存在“灾难性遗忘”...

AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊

RoboBallet是由DeepMind、Intrinsic AI和UCL等研究机构共同提出的成果,发表在Science子刊Science Robotics上。这一成果创新性地将图神经网络(GNN)用于强化...
1 2 3 4 21