“强化学习”的搜索结果 | 学习AIGC

网站文章

“强化学习”的搜索结果

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

大规模预训练和微调的模式在...

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，基于人类偏好的强...

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习已成为大型语言模型...

「Next-Token」范式改变！刚刚，强化学习预训练来了

「Next-Token」范式改变！刚刚，强化学习预训练来了

在人工智能领域，强化学习（R...

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

加州大学伯克利分校副教授Ser...

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

西北大学与Google、谷歌DeepM...

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek...

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

复刻DeepSeek - R1的长思维链...

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

Cognition AI 近期开源了一款...

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

复旦大学等机构在视频生成领...

1 2 3 … 422