标签:强化学习
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
在大语言模型(LLMs)竞争日益激烈的背景下,推理能力成为评估模型性能的关键指标。测试时缩放(TTS)作为一种新兴策略,通过优化推理过程(如多数投票、蒙特...
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
2025年被许多人视为“AI智能体元年”,然而当前大多数智能体仍处于实验阶段,尚未真正进入企业应用。李飞飞团队与多所大学及微软合作,推出了名为RAGEN的新系统...
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI
昆仑万维最新发布的Skywork-R1V 2.0版本,标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型,R1V 2.0不仅在技术上实现了显著进化,...
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
大规模强化学习在激发大型语言模型的复杂推理行为方面展现出显著效果,OpenAI 的 o1 系列和 DeepSeek-R1 的成功便是明证。然而,这些模型的核心训练方法在技...
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会 「套公式」,却不会真推理
清华和上交的最新研究对当前“纯强化学习(RL)有利于提升模型推理能力”的主流观点提出了质疑。通过一系列实验,研究者发现引入强化学习的模型在某些任务中的...
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
扩散模型在推理任务中的表现正逐渐受到关注,尤其是通过强化学习(RL)方法的应用。传统上,自回归大语言模型(LLM)在推理任务中占据主导地位,但离散扩散大...
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据
德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术,成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
OpenAI最新发布的o3和o4-mini模型在编码能力上取得了显著进步,甚至在全球人类选手中位列TOP 200。然而,这些模型在生成内容时存在严重的幻觉问题,o3的幻觉...
OpenAI科学家姚顺雨:o3发布、RL迎来新范式,AI正式进入下半场
AI发展的“下半场”标志着从模型训练到问题定义和评估的转变。 过去几十年,AI的核心在于开发新的训练方法和模型,这一路径取得了显著成果,如AlphaGo和GPT-4等...