标签:强化学习
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
加州大学伯克利分校的研究团队开发了一种名为AssistanceZero的新算法,旨在通过Assistance Games框架改进AI助手的训练方式。这一方法的核心在于AI助手与用户...
阿里开源R1-Omni,多模态情感识别
阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...
谷歌等最新研究,合成数据可将大模型数学推理提升8倍
随着大模型如ChatGPT的快速发展,对高质量训练数据的需求呈指数级增长,预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题,合成数...
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文,提出了SPCT(Self-Principled Critique Tuning)...
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整(SPCT)的新方法,旨在提升通用奖励模型(GRM)在推理阶段的可扩展性。该方法通过结合拒绝式微...
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
DeepSeek-R1的成功依赖于一种名为GRPO(组相对策略优化)的强化学习算法。与PPO(近端策略优化)不同,GRPO直接根据组分数估计基线,从而消除了对critic模型...
Agent 正在重新划分大模型竞争格局
大模型与强化学习是Agent的核心技术,决定了其自主性和执行能力。Agent作为人工智能时代的“AI Being”,能够完成从理解任务、思考推理到决策执行的全流程,区...
模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平
Databricks公司推出了一种名为TAO(Test-time Adaptive Optimization)的新型模型调优方法,该方法无需标注数据即可完成大型语言模型(LLMs)的微调。TAO的核...
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
OPPO研究院与香港科技大学(广州)的研究人员提出了一项名为OThink-MR1的新技术,旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能...
ICLR 2025 Spotlight|让机器人实现“自主进化” 蚂蚁数科与清华联合提出具身协同框架BodyGen
BodyGen 框架通过结合强化学习与深度神经网络技术,实现了机器人形态与控制策略的自主协同设计,为具身智能的加速进化提供了全新的思路。该框架由蚂蚁数科与...