标签:强化学习

浏览器秒变手机!中科院开源Agent训练场,微信、原神都能跑

这种结构化状态设计使得MobileGym能够实现考练一体,同一套可验证信号既能作为精确的评测成绩单,又能作为强化学习的奖励反馈。由于环境极度轻量,单台服务器...

Token烧不起了?比肩Claude Opus 4.6免费模型来了,还将开源

昆仑万维天工AI发布了专为智能体场景深度优化的SkyClaw-v1.0大模型。该模型目前提供免费试用并计划后续开源,其百万上下文窗口的输入价格最低至0.3元每百万to...

Meta华人发布ATLAS,一个词搞定可泛化的视觉推理!

Meta AI与香港中文大学联合提出全新视觉推理范式ATLAS,仅凭一个离散的功能词元即可首次实现智能体推理与潜在视觉推理的高效统一。该架构彻底摒弃了外部工具...

兼顾效率、成本与能力,百灵开源旗舰推理模型 Ring-2.6-1T

蚂蚁百灵正式开源旗舰级推理模型Ring-2.6-1T,权重文件已同步登陆Hugging Face与ModelScope平台。该模型拥有万亿级参数规模,专门面向代理工作流、代码工程、...

强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史

强化学习已成为大语言模型后训练阶段的核心技术,尤其在推动模型推理能力跃升方面发挥着关键作用。算法演进经历了从以近端策略优化为主导到多分支并行创新的...

Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式

当前视觉语言动作大模型在应对复杂物理环境与长程任务时频发失效,长期依赖人工记录边缘案例并反复微调。LWD部署中学习范式通过构建集群级强化学习闭环,将外...

OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”

大型语言模型在版本迭代中逐渐频繁在回复中提及奇幻生物,引发技术界关注。OpenAI的技术复盘证实,该异常现象根源于模型人格功能引入的强化学习奖励机制。在...

全球1100万台出货,追觅打造最聪明的扫地机

扫地机行业竞争正从参数比拼转向复杂环境中的智能判断能力。追觅扫地机通过将 AI 变成从感知到执行的完整链路,实现了从“会扫”到“会判断”的本质升级。一台真...

美团之后,京东也开始自研大模型了

研发团队为了保证学习效果专门建立了详尽的高质量数据管道。在处理公开网络资讯时加入特定的查重与隐私保护模块,并利用微调小模型去除广告杂项。大模型能有...

让离线强化学习从「局部描摹」变「全局布局」丨ICLR’26

现有的主流生成式离线强化学习算法在处理复杂的连续长期任务时通常会暴露出现实性的瓶颈问题,这些生成的轨迹经常处于看起来内部合理但实际上已经严重偏离全...
1 2 3 27