强化学习 | 第 12 页

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会「套公式」，却不会真推理

清华和上交的最新研究对当前“纯强化学习（RL）有利于提升模型推理能力”的主流观点提出了质疑。通过一系列实验，研究者发现引入强化学习的模型在某些任务中的...

AIGC动态

11个月前

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散模型在推理任务中的表现正逐渐受到关注，尤其是通过强化学习（RL）方法的应用。传统上，自回归大语言模型（LLM）在推理任务中占据主导地位，但离散扩散大...

AIGC动态

11个月前

AI版本宝可梦冲榜上全球前10%！一次性「吃掉」10年47.5万场人类对战数据

德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术，成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...

AIGC动态

11个月前

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

OpenAI最新发布的o3和o4-mini模型在编码能力上取得了显著进步，甚至在全球人类选手中位列TOP 200。然而，这些模型在生成内容时存在严重的幻觉问题，o3的幻觉...

AIGC动态

11个月前

OpenAI科学家姚顺雨：o3发布、RL迎来新范式，AI正式进入下半场

AI发展的“下半场”标志着从模型训练到问题定义和评估的转变。过去几十年，AI的核心在于开发新的训练方法和模型，这一路径取得了显著成果，如AlphaGo和GPT-4等...

AIGC动态

11个月前

更长思维并不等于更强推理性能，强化学习可以很简洁

著名研究者和技术作家 Sebastian Raschka 解读了一篇来自 Wand AI 的强化学习研究，该研究分析了推理模型生成较长响应的原因。研究发现，推理模型生成较长响...

AIGC动态

11个月前

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域，学术界和工业界在探索模型推理性能提升的过程中，提出了一个核心问题：什么方法有效，什么方法无效？近期研究...

AIGC动态

11个月前

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

加州大学伯克利分校的研究团队开发了一种名为AssistanceZero的新算法，旨在通过Assistance Games框架改进AI助手的训练方式。这一方法的核心在于AI助手与用户...

AIGC动态

11个月前

阿里开源R1-Omni，多模态情感识别

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni，该模型首次将强化学习与可验证奖励（RLVR）应用于多模态大模型，显著提升了情感识别任务中的...

AIGC动态

11个月前

谷歌等最新研究，合成数据可将大模型数学推理提升8倍

随着大模型如ChatGPT的快速发展，对高质量训练数据的需求呈指数级增长，预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题，合成数...

AIGC动态

11个月前

标签：强化学习

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会「套公式」，却不会真推理

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

AI版本宝可梦冲榜上全球前10%！一次性「吃掉」10年47.5万场人类对战数据

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

OpenAI科学家姚顺雨：o3发布、RL迎来新范式，AI正式进入下半场

更长思维并不等于更强推理性能，强化学习可以很简洁

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

魔改AlphaZero后，《我的世界》AI老玩家问世，干活不用下指令

阿里开源R1-Omni，多模态情感识别

谷歌等最新研究，合成数据可将大模型数学推理提升8倍

热门网址

标签：强化学习

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址