标签:强化学习
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
在大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于...
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
华为诺亚方舟实验室提出的Pangu DeepDiver模型通过Search Intensity Scaling(SIS)技术,实现了大型语言模型(LLM)与搜索引擎的自主交互,显著提升了7B参数...
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
西北大学与Google、谷歌DeepMind团队提出了一种新的强化学习方法——贝叶斯自适应强化学习(BARL),旨在解决传统强化学习(RL)在反思探索方面的局限性。传统R...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
阿里开源自主搜索AI Agent,搜论文、网站资讯无所不能
今天凌晨,阿里巴巴开源了创新自主搜索AI Agent——WebAgent。搜索信息在学术研究、商业决策和日常生活中至关重要,但传统信息检索系统难以满足复杂需求。WebAg...
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
微软副总裁 Nando de Freitas 在 X 平台上发布了一系列关于人工智能教育的帖子,内容涵盖大语言模型(LLM)的强化学习、扩散模型、流匹配等技术。他通过深入...
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
2025年6月6日至7日,第七届北京智源大会将在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会,大会汇聚了全球顶尖研究者,分享最新成...
图灵奖四巨擘共话AI未来,「双星交汇」引爆年度盛会!
2025年智源大会将于6月6日至7日在北京举行,作为人工智能领域的顶级学术峰会,大会汇聚了四位图灵奖得主以及来自全球顶尖科研院所和企业的专家学者,共同探讨...
四位图灵奖掌舵:2025智源大会揭示AI进化新路径
2025年6月6日至7日,第七届北京智源大会将在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会,大会汇聚全球顶尖研究者,分享最新成果...
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
阿里通义实验室最近开源了ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架,旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索...