标签:强化学习

LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?

近期,关于AI自我演进的研究和讨论逐渐增多,多个机构提出了不同的自我改进框架。例如,Sakana AI与不列颠哥伦比亚大学合作的「达尔文-哥德尔机(DGM)」、CM...

灵初智能陈源培:一个 00 后的机器人之梦

陈源培,灵初智能的联合创始人,作为00后技术创业者,凭借在具身智能领域的突出贡献,入选了福布斯“30 Under 30 – Asia – AI (2025)”榜单。尽管本科专业是土...

「Next-Token」范式改变!刚刚,强化学习预训练来了

在人工智能领域,强化学习(RL)长期以来被视为提升模型能力的辅助工具,而非核心方法。然而,近年来,强化学习在提升大语言模型(LLMs)能力方面的作用逐渐...

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

Mistral AI发布了其首款推理模型Magistral,该模型旨在提升多语言推理能力和可解释性。Magistral分为两个版本:Magistral Small,一个24B参数的开源权重版本...

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

语言模型对强化学习中的奖励噪音表现出显著的鲁棒性,即使奖励信号被部分翻转,模型在下游任务中的表现也不会显著下降。研究者发现,强化学习对下游任务的提...

图灵巨擘RL教父齐聚,机器人秀拳脚嗨翻全场!「悟界」首发引爆物理AGI

智源大会作为AI领域的顶级盛会,汇聚了全球顶尖学者和科技巨头,围绕AI前沿技术与未来发展展开深度探讨。图灵奖得主Yoshua Bengio指出,AI规划能力正以每七个...

RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

在大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于...

真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法

华为诺亚方舟实验室提出的Pangu DeepDiver模型通过Search Intensity Scaling(SIS)技术,实现了大型语言模型(LLM)与搜索引擎的自主交互,显著提升了7B参数...

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

西北大学与Google、谷歌DeepMind团队提出了一种新的强化学习方法——贝叶斯自适应强化学习(BARL),旨在解决传统强化学习(RL)在反思探索方面的局限性。传统R...

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
1 2 3 17