标签:强化学习

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

阿里通义实验室最近开源了ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架,旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索...

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型(MRMs)在多模态大语言模型(MLLMs)的性能提升中扮演着关键角色,尤其在训练和评估阶段能够提供稳定的奖励信号。然而,尽管强化学习(RL)在...

微软开源新版ph4:媲美DeepSeek-R1,参数暴降48倍

微软近期在官网开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。这些模型的最大亮点之一是算力消耗极低,能够在消费级硬件...

Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

朱哲清是一位坚定的强化学习(RL)信仰者,他早在2016年AlphaGo击败李世石时便意识到AI的潜力,并开始深入研究RL。尽管RL在随后的几年中经历了低谷,朱哲清始...

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

Cognition AI 近期开源了一款名为 Kevin-32B 的大模型,该模型通过强化学习技术专门用于编写 CUDA 内核。Kevin-32B 基于 QwQ-32B 模型,并在 KernelBench 数...

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

复旦大学等机构在视频生成领域取得了显著进展,通过引入强化学习技术,优化了视频生成模型的效果。研究团队提出了Cockatiel方法,该方法在视频细粒度文本描述...

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

大语言模型(LLMs)在智能体应用中的潜力引发了广泛关注,但其在决策场景中的表现却存在显著缺陷。谷歌DeepMind的研究者深入分析了LLMs在决策中的三种常见失...

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型通过递归+强化学习的训练方法,显著提升了其在形式化定理证明中的表现。DeepSeek-Prover-...

DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过

DeepSeek团队在五一劳动节期间发布了DeepSeek-Prover-V2,这是一款专为数学AI编程语言Lean 4打造的开源大语言模型,专注于形式化定理证明。该模型在定理证明...

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...
1 2 3 15