强化学习 | 第 3 页

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型，旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...

AIGC动态

3个月前

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究，标志着视觉-语言-动作模型（VLA）与在线强化学习（RL）结合的重大突破。VLA+online ...

AIGC动态

4个月前

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

强化学习（RL）已成为提升大语言模型（LLM）复杂推理能力的关键技术范式，但其训练稳定性问题亟待解决。当前主流RL算法存在序列级奖励与token级优化的不匹配...

AIGC动态

4个月前

Yann LeCun离开Meta后首篇论文？使用了宇树机器人做研究

伯克利、纽约大学和约翰・开普勒林茨大学的研究团队提出了一种名为GenMimic的新方法，使机器人能够通过观看AI生成的视频学习并复现人类动作。这一突破性技术...

AIGC动态

4个月前

多模态思维链如何重塑 AI 与短视频的未来

快手高级算法专家文彬在AICon全球人工智能开发与应用大会上分享了Keye-VL多模态大模型的技术突破与应用实践。该模型通过多模态思维链技术实现了动态视频理解...

AI-Agent

4个月前

V3.2逼近Gemini 3，DeepSeek硬气喊话：接下来我要堆算力了

OpenAI前首席科学家Ilya Sutskever近期提出，过去五年依赖算力堆叠模型的'规模时代'正面临瓶颈，单纯扩大模型规模难以实现质变。然而DeepSeek通过V3.2系列模...

AI-Agent

4个月前

Transformer作者爆料GPT-5.1内幕！OpenAI内部命名规则变乱了

我们正在经历一次静悄悄但本质性的AI范式转换，其意义不亚于Transformer本身的诞生。过去一年，关于AI发展的观点呈现两极分化：一方面存在'模型到顶论'，另一...

AIGC动态

4个月前

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型，专为OCR任务设计，参数规模仅1B，兼具轻量与高性能特性。该模型在文本检测识别、复杂...

AIGC动态

4个月前

月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

月之暗面联合清华大学提出的全新加速引擎Seer，通过创新技术显著提升大语言模型（LLM）的强化学习训练效率。该系统针对传统RL训练中生成阶段（rollout phase...

AIGC动态

4个月前

国产AI拿下国际物理奥赛金牌，13项顶级竞赛豪取12金1银，划重点：开源

上海人工智能实验室团队推出的开源模型家族P1，成为首个在国际物理奥林匹克竞赛（IPhO 2025）理论考试中达到金牌线的开源模型。P1-235B-A22B在IPhO 2025中取...

AIGC动态

4个月前

标签：强化学习

港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

LLM强化学习不稳定之谜，被Qwen团队从「一阶近似」视角解开

Yann LeCun离开Meta后首篇论文？使用了宇树机器人做研究

多模态思维链如何重塑 AI 与短视频的未来

V3.2逼近Gemini 3，DeepSeek硬气喊话：接下来我要堆算力了

Transformer作者爆料GPT-5.1内幕！OpenAI内部命名规则变乱了

混元OCR模型核心技术揭秘：统一框架、真端到端

月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

国产AI拿下国际物理奥赛金牌，13项顶级竞赛豪取12金1银，划重点：开源

热门网址

标签：强化学习

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址