强化学习 | 学习AIGC

马斯克xAI联创突然离职了

Igor Babuschkin，这位2023年和马斯克一同创办xAI的元老成员，近日宣告离职。在xAI工作期间，他领导工程团队，参与了从基础设施建设到产品和AI应用项目等重要...

AIGC动态

18小时前

独家丨小鹏机器人团队“广招兵马”，原字节 Seed 陈杰已加入

小鹏汽车近年来在机器人领域的布局和投入备受关注。自2020年收购四足机器人团队Dogotix并成立鹏行智能以来，小鹏在机器人领域的探索逐步深入。鹏行智能在成立...

AIGC动态

3周前

思维链之父跳槽Meta，不只因为1亿美元！离开OpenAI前泄天机

硅谷的AI人才争夺战愈演愈烈，Meta通过天价薪酬吸引顶尖人才，其中包括从OpenAI跳槽的华人AI科学家Jason Wei。Jason Wei在AI领域成就斐然，拥有多篇高引用论...

AIGC动态

4周前

基于闪电注意力机制，创新高效开源大模型

MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1，该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿，其中459...

AIGC动态

4周前

打造全球首个强化学习云平台，九章云极是如何做到的？

人工智能领域正经历从被动响应的语言模型向具备自主决策能力的智能体模型的深刻转变，强化学习（RL）重新成为实现「感知-决策-行动」闭环的关键技术。诺贝尔...

AI-Agent

4周前

最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

强化学习（RL）领域正在经历一场潜在的变革，类似于语言模型在GPT-3出现时的飞跃。当前的RL模型虽然在特定任务上表现优异，但面临泛化能力差、难以适应新任务...

AIGC动态

1个月前

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习已成为推动人工智能向通用人工智能（AGI）发展的关键技术节点，但奖励模型的设计与训练一直是制约模型能力提升的瓶颈。当前，大语言模型通过Next Tok...

AIGC动态

1个月前

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

POLAR是一种全新的奖励模型，采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。这一创新方法不仅减少了对海量人工标注的依赖，还展...

AIGC动态

1个月前

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

在大语言模型的后训练阶段，强化学习是提升模型能力、对齐人类偏好的核心方法，但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...

AIGC动态

1个月前

高考数学142分，多学科推理MMMU跑分76.0直逼人类专家，Skywork R1V 3.0用强化学习探索跨学科推理

在电影《银翼杀手2049》中，虚拟伴侣Joi通过全息投影与现实世界无缝互动，展现了AI在未来可能具备的高度智能和情感理解能力。然而，现实中要实现这种科幻场景...

AIGC动态

1个月前

标签：强化学习

马斯克xAI联创突然离职了

独家丨小鹏机器人团队“广招兵马”，原字节 Seed 陈杰已加入

思维链之父跳槽Meta，不只因为1亿美元！离开OpenAI前泄天机

基于闪电注意力机制，创新高效开源大模型

打造全球首个强化学习云平台，九章云极是如何做到的？

最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

高考数学142分，多学科推理MMMU跑分76.0直逼人类专家，Skywork R1V 3.0用强化学习探索跨学科推理

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址