标签:强化学习
小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%
Meta超级实验室「Meta Superintelligence Labs,MSL」的三位成员上传ArXiv论文,探索利用强化学习(RL)高效微调大语言模型(LLM),使LLM在推理时实现迭代自...
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
大语言模型的发展迅速,后训练的强化学习算法不断演进。从 PPO 到 GRPO 再到后续改进算法,都在不断提升模型性能与稳定性。后训练与强化学习的重要性:大语言...
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
年仅 30 多岁的吴翼拥有众多亮眼标签,他创立的边塞科技 2024 年被蚂蚁收购,团队 4 年的规模化强化学习成果积累到开源项目 AReaL 中。在接受采访时,吴翼分...
马斯克xAI联创突然离职了
Igor Babuschkin,这位2023年和马斯克一同创办xAI的元老成员,近日宣告离职。在xAI工作期间,他领导工程团队,参与了从基础设施建设到产品和AI应用项目等重要...
独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入
小鹏汽车近年来在机器人领域的布局和投入备受关注。自2020年收购四足机器人团队Dogotix并成立鹏行智能以来,小鹏在机器人领域的探索逐步深入。鹏行智能在成立...
思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机
硅谷的AI人才争夺战愈演愈烈,Meta通过天价薪酬吸引顶尖人才,其中包括从OpenAI跳槽的华人AI科学家Jason Wei。Jason Wei在AI领域成就斐然,拥有多篇高引用论...
基于闪电注意力机制,创新高效开源大模型
MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1,该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿,其中459...
打造全球首个强化学习云平台,九章云极是如何做到的?
人工智能领域正经历从被动响应的语言模型向具备自主决策能力的智能体模型的深刻转变,强化学习(RL)重新成为实现「感知-决策-行动」闭环的关键技术。诺贝尔...
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
强化学习(RL)领域正在经历一场潜在的变革,类似于语言模型在GPT-3出现时的飞跃。当前的RL模型虽然在特定任务上表现优异,但面临泛化能力差、难以适应新任务...
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
强化学习已成为推动人工智能向通用人工智能(AGI)发展的关键技术节点,但奖励模型的设计与训练一直是制约模型能力提升的瓶颈。当前,大语言模型通过Next Tok...