强化学习 | 学习AIGC

兼顾效率、成本与能力，百灵开源旗舰推理模型 Ring-2.6-1T

蚂蚁百灵正式开源旗舰级推理模型Ring-2.6-1T，权重文件已同步登陆Hugging Face与ModelScope平台。该模型拥有万亿级参数规模，专门面向代理工作流、代码工程、...

AIGC动态

1天前

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

强化学习已成为大语言模型后训练阶段的核心技术，尤其在推动模型推理能力跃升方面发挥着关键作用。算法演进经历了从以近端策略优化为主导到多分支并行创新的...

AIGC动态

3周前

Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

当前视觉语言动作大模型在应对复杂物理环境与长程任务时频发失效，长期依赖人工记录边缘案例并反复微调。LWD部署中学习范式通过构建集群级强化学习闭环，将外...

AIGC动态

3周前

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

大型语言模型在版本迭代中逐渐频繁在回复中提及奇幻生物，引发技术界关注。OpenAI的技术复盘证实，该异常现象根源于模型人格功能引入的强化学习奖励机制。在...

AIGC动态

3周前

全球1100万台出货，追觅打造最聪明的扫地机

扫地机行业竞争正从参数比拼转向复杂环境中的智能判断能力。追觅扫地机通过将 AI 变成从感知到执行的完整链路，实现了从“会扫”到“会判断”的本质升级。一台真...

AIGC动态

1个月前

美团之后，京东也开始自研大模型了

研发团队为了保证学习效果专门建立了详尽的高质量数据管道。在处理公开网络资讯时加入特定的查重与隐私保护模块，并利用微调小模型去除广告杂项。大模型能有...

AIGC动态

1个月前

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有的主流生成式离线强化学习算法在处理复杂的连续长期任务时通常会暴露出现实性的瓶颈问题，这些生成的轨迹经常处于看起来内部合理但实际上已经严重偏离全...

AIGC动态

1个月前

大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式

近年来，强化学习逐步确立为大语言模型后训练的核心领域。虽然有大量实证表明该路径能有效激发模型的复杂推理能力，但在实际操作中直接把普通模型投入使用极...

AIGC动态

2个月前

「华舟魔」三强之一，加速迈向物理AI

轻舟智航近期完成1亿美元D轮融资，投资方包括头部主机厂、产业投资基金及汽车电子企业，资金将用于加速世界模型与强化学习等前沿物理AI技术的研发，并加强组...

AIGC动态

2个月前

西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026

该研究针对图像生成中多图一致性缺失的问题，提出PaCo-RL方法，通过成对奖励建模与强化学习的结合，实现从判断一致性到生成一致图像的能力闭环。传统图像生成...

AIGC动态

2个月前

标签：强化学习

兼顾效率、成本与能力，百灵开源旗舰推理模型 Ring-2.6-1T

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

全球1100万台出货，追觅打造最聪明的扫地机

美团之后，京东也开始自研大模型了

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式

「华舟魔」三强之一，加速迈向物理AI

西交大 x A*STAR 论文：让 AI 学会「保持一致」，多图生成迎来关键突破丨CVPR 2026

热门网址

标签：强化学习

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址