标签:强化学习
强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!
大规模预训练和微调的模式在机器学习领域取得了显著成功,但在强化学习(RL)中的应用仍面临挑战。强化学习需要对时间和意图进行推理,传统方法在处理长时间...
Kimi Researcher团队自述:Agent不是缝合怪,它就是模型(附内测名额)
月之暗面(Moonshot AI)推出了其首个AI Agent产品——Kimi Researcher,该产品定位为一个能够生成带引用来源的深度研究报告的AI Agent,而不仅仅是一个简单的...
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
过去几年,基于人类偏好的强化学习(RLHF)成为大语言模型(LLM)后训练阶段的关键技术,显著提升了模型的对齐能力,并拓展了其在推理增强、智能体交互等场景...
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
强化学习已成为大型语言模型(LLM)技术栈的核心组成部分,其应用范围从模型对齐、推理训练扩展到新兴的智能体强化学习(Agentic RL)。Unsloth团队近期发布...
00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手
灵初智能最新推出的自研灵巧手具备21个自由度,远超市面上常见的6自由度抓取器,支持16主动自由度,能够完成夹持、旋转、精准插拔等精细操作。这一技术突破在...
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
Claude 4核心成员Sholto Douglas和Trenton Bricken在播客节目中提出,仅依靠强化学习(RL)和数据收集就足以在5年内实现通用人工智能(AGI),并自动化白领工...
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
推荐系统正经历由大型语言模型(LLM)驱动的范式变革。传统级联架构因算力碎片化、目标冲突等问题面临瓶颈,而快手提出的端到端生成式系统OneRec通过整合Enco...
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
卢宗青是一位具身智能领域的创业者,拥有深厚的学术背景和实践经验。他曾在北京大学担任计算机学院长聘副教授,并负责过多个国家级科研项目。他的研究领域从...
请记住 MiniMax M1:MiniMax 用自己的方法追上R1们,直奔最强Agent模型而去
MiniMax M1 的发布标志着该公司在基础模型领域的一次重大突破。该模型采用了线性注意力 Lightning Attention 机制,并将其与传统的 softmax attention 相结合...
游戏教父 John Carmack:LLM 不是游戏的未来
John Carmack作为游戏开发领域的先驱,回顾了自己在Id Software、Armadillo Aerospace、Oculus和Keen Technologies的职业生涯,并分享了他对人工智能和强化学...