强化学习 | 第 2 页

2026年，大模型训练的下半场属于「强化学习云」

2024年底，硅谷和北京的科技圈开始担忧Scaling Law的瓶颈，新一代旗舰模型如GPT-5（Orion）在单纯增加参数和数据规模后未能实现预期效益提升，甚至有研究预测...

AI-Agent

2个月前

让模型自己找关键帧、视觉线索，小红书Video-Thinker破解视频推理困局

在视频理解领域，多模态大语言模型（MLLM）面临的核心挑战在于如何突破静态图像处理的局限，实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具...

AIGC动态

2个月前

千人千面的真人级AI名师，劈开教育「不可能三角」

教育行业长期面临规模、质量与成本难以兼顾的困境，而「与爱为舞」公司开发的AI导师系统通过技术创新实现了突破。该系统已服务百万级用户，其核心在于将通用...

AIGC动态

2个月前

极简主义的胜利：清华团队用最简单的强化学习配方刷新1.5B模型纪录

清华大学、伊利诺伊大学和上海AI实验室的研究团队提出了一种名为JustRL的全新架构，该架构通过单阶段训练和固定超参数，在DeepSeek-R1-Distill-Qwen-1.5B与Ne...

AIGC动态

3个月前

自动驾驶VLA新SOTA：复旦联合团队提出WAM-Diff重塑端到端自动驾驶

复旦大学与引望智能科技联合提出的WAM-Diff框架，在NAVSIM-v1榜单上以91.0 PDMS的预测驾驶得分刷新了自动驾驶领域的性能记录。这一端到端自动驾驶系统通过掩...

AIGC动态

3个月前

全网围观的2025大语言模型回顾：AI大牛karpathy总结了六大关键节点

2025年标志着人工智能从模仿人类行为向自主逻辑推理的质变。这一年见证了基于可验证奖励的强化学习（RLVR）取代传统的人类反馈机制，使大语言模型具备了真正...

AIGC动态

3个月前

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型，旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...

AIGC动态

3个月前

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究，标志着视觉-语言-动作模型（VLA）与在线强化学习（RL）结合的重大突破。VLA+online ...

AIGC动态

3个月前

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

强化学习（RL）已成为提升大语言模型（LLM）复杂推理能力的关键技术范式，但其训练稳定性问题亟待解决。当前主流RL算法存在序列级奖励与token级优化的不匹配...

AIGC动态

3个月前

Yann LeCun离开Meta后首篇论文？使用了宇树机器人做研究

伯克利、纽约大学和约翰・开普勒林茨大学的研究团队提出了一种名为GenMimic的新方法，使机器人能够通过观看AI生成的视频学习并复现人类动作。这一突破性技术...

AIGC动态

3个月前

标签：强化学习

2026年，大模型训练的下半场属于「强化学习云」

让模型自己找关键帧、视觉线索，小红书Video-Thinker破解视频推理困局

千人千面的真人级AI名师，劈开教育「不可能三角」

极简主义的胜利：清华团队用最简单的强化学习配方刷新1.5B模型纪录

自动驾驶VLA新SOTA：复旦联合团队提出WAM-Diff重塑端到端自动驾驶

全网围观的2025大语言模型回顾：AI大牛karpathy总结了六大关键节点

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

Yann LeCun离开Meta后首篇论文？使用了宇树机器人做研究

热门网址

标签：强化学习

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址