标签:强化学习
蚂蚁开源万亿参数思考模型 Ring-1T,综合能力逼近 GPT-5、数学能力对标 IMO 银牌
蚂蚁集团正式推出万亿参数思考模型Ring-1T并全面开源,该模型在9月30日预览版基础上扩展了大规模可验证奖励强化学习(RLVR)训练,提升自然语言推理能力,并...
0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级
MIT提出的SEAL(Self-Adapting LLMs)框架标志着大模型技术迈入自主进化新阶段。该框架通过内外双循环机制,首次在权重层面实现了模型自我驱动的更新能力,摆...
蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌
蚂蚁集团近期密集开源多款大模型,其中万亿级思考模型Ring-1T的发布尤为引人注目。该模型在多项高难度基准测试中展现出与闭源巨头正面对话的实力,成为开源体...
登顶!快手发布开源编程模型,720亿参数,创下编程能力新纪录
快手在AI领域的突破性进展集中体现在其最新发布的KAT-Dev-72B-Exp代码大模型上。这款专为软件工程设计的720亿参数模型,在SWE-Bench Verified测试中以74.6%的...
北航团队提出新的离线分层扩散框架:基于结构信息原理,实现稳定离线策略学习|NeurIPS 2025
北航彭浩团队的研究提出了一个名为SIHD的新型框架,旨在解决离线强化学习中分层扩散模型的局限性。该框架通过分析离线轨迹中的结构信息,自适应地构建多尺度...
听说,大家都在梭后训练?最佳指南来了
在大模型时代,Scaling Law曾被视为AI领域的黄金准则,但随着模型规模扩展到百亿、千亿级,其边际效益开始递减。业界逐渐将重心从预训练转向后训练阶段,这一...
亚马逊“盲眼”机器人30秒跑酷首秀惊艳!华人学者领衔
亚马逊机器人团队FAR发布了名为OmniRetarget的人形机器人研究成果,该系统能够在完全无视觉感知的情况下完成复杂动作。OmniRetarget通过交互网格建模机器人、...
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍
清华大学朱军教授团队、NVIDIA Deep Imagination研究组与斯坦福Stefano Ermon团队联合提出了一种名为Diffusion Negative-aware FineTuning(DiffusionNFT)的...
Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
LoRA(低秩适配)作为一种参数高效微调方法,在特定条件下能够与全参数微调(FullFT)达到相近性能。 Thinking Machines的最新研究通过监督微调和强化学习实...
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
普林斯顿大学陈丹琦团队最新研究提出基于模型奖励思维的强化学习(RLMT)方法,旨在弥合专门推理能力与通用对话能力之间的差距。该方法通过将显式的思维链推...





