标签:强化学习

OpenAI华人科学家翁荔:人类如何培养出下一代聪明且安全的AI技术|钛媒体AGI

在2024年Bilibili超级科学晚上,OpenAI研究副总裁翁荔发表了关于AI安全与培养的演讲。她强调,随着AI技术的快速发展,确保其行为符合人类价值观和安全性变得...

吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题

字节跳动豆包大模型团队与香港大学联合提出了一个名为HybridFlow(开源项目名:veRL)的灵活且高效的强化学习(RL)/RLHF框架。该框架采用混合编程模型,结合...

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

阿尔伯塔大学教授Richard Sutton及其团队提出了一种名为“奖励聚中”(Reward Centering)的新型强化学习思想,旨在改进现有强化学习方法。该思想通过从奖励中...

小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架

在人工智能技术快速发展的背景下,多模态大语言模型(MLLM)因其在图文理解、创作、知识推理及指令遵循方面的能力,成为数字化转型的重要推动力。小红书大模...

OpenAI科学家震惊TED大会:让AI模型思考20秒,提升10万倍性能!

在旧金山举行的TED AI大会上,OpenAI的高级研究科学家Noam Brown提出了一个创新理论,即通过让AI模型进行20秒的思考,可以实现相当于将模型扩大100,000倍并训...

揭秘 OpenR:首个类 o1 开源推理框架,增强大型语言模型复杂推理能力

由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合研究团队开发的首个类 o1 全链条训练框架「OpenR」已开源。OpenR 是...

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合研究的首个类o1全链条训练框架「OpenR」已开源,旨在提升大型语言模...

AI几小时设计芯片超越人类!谷歌AlphaChip登Nature,已设计出三代旗舰TPU

谷歌DeepMind推出了一款名为AlphaChip的AI系统,它能够利用强化学习原理,在数小时内设计出与人类专家水平相当或更优的芯片布局。AlphaChip的应用范围广泛,...

谷歌要干掉layout工程师?

DeepMind最近宣布,其人工智能技术AlphaChip已经在全球范围内的硬件中得到应用,加速并优化了芯片设计。AlphaChip利用深度强化学习的方法,显著提高了芯片布...

万字推演OpenAI o1 self-play RL 技术路线

曹宇在其文章中深入分析了OpenAI的新型自我博弈强化学习(RL)模型o1,该模型在数理推理领域取得了显著成绩,并提出了训练时计算(train-time compute)和测...
1 14 15 16 17 18 19