强化学习 | 第 16 页

OpenAI Deep Research专访：Agent 的未来是端到端、强化学习微调

OpenAI Deep Research 和 Grok Deep Search 展示了人工智能在复杂任务处理上的重大突破。推理模型经过强化学习端到端训练后，处理复杂任务的能力有了质的飞跃...

AI-Agent

1年前 (2025)

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025年1月20日发布的Kimi k1.5因实现多模态推理性能引发关注，但一个月后技术博主Yue Wu公开质疑其核心算法SPPO借鉴了自己2024年5月提出的研究成果。这场争议...

AIGC动态

1年前 (2025)

国外权威认证！DeepSeek超150万模型，成最受欢迎开源大模型

Huggingface平台最新数据显示，中国开源大模型DeepSeek-R1以超过1万点赞量和1000万次下载量，成为该平台有史以来最受欢迎的开源模型。这一成绩仅用数周时间便...

AIGC动态

1年前 (2025)

3倍提速！现在你跑不过机器狗了，限制波士顿动力机器狗的竟然是电池功率？

波士顿动力的Spot机器狗通过强化学习技术实现了运动性能的显著突破。最新研究显示，Spot的奔跑速度从出厂时的1.6米/秒提升至18.7千米/时，接近小型犬20千米/...

AIGC动态

1年前 (2025)

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

阶跃星辰与清华大学联合发布的Open Reasoner Zero（ORZ）模型在强化学习训练方法上取得突破性进展。该研究采用极简主义方法，仅使用带有GAE的原版PPO算法和基...

AIGC动态

1年前 (2025)

10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文反驳涌现

荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite，以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的'顿悟时刻'。该方法通过简化传统强化学习的复...

AIGC动态

1年前 (2025)

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

DeepSeek-R1模型的核心强化学习算法GRPO通过分组分数替代价值模型，显著降低了训练资源消耗。然而，阶跃星辰与清华大学的最新研究表明，采用带GAE（λ=1，γ=1...

AIGC动态

1年前 (2025)

机器人视觉控制新范式！ByteDance Research新算法实现通过性能SOTA

ByteDance Research与上海交通大学合作提出的WMP框架，首次将世界模型技术应用于四足机器人视觉控制领域，为解决传统特权学习方法的局限性提供了新思路。通过...

AIGC动态

1年前 (2025)

DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

Colossal-AI近期发布了开源大模型后训练工具箱，旨在帮助开发者通过低成本方式对DeepSeek V3/R1等大规模模型进行监督微调与强化学习优化。该工具箱支持高达67...

AIGC动态

1年前 (2025)

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

DeepSeek V3/R1等大模型在开源社区广泛应用的背景下，如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...

AIGC动态

1年前 (2025)

标签：强化学习

OpenAI Deep Research专访：Agent 的未来是端到端、强化学习微调

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

国外权威认证！DeepSeek超150万模型，成最受欢迎开源大模型

3倍提速！现在你跑不过机器狗了，限制波士顿动力机器狗的竟然是电池功率？

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文反驳涌现

出人意料！DeepSeek-R1用的GRPO其实非最优？规模化强化学习训练用PPO就够了

机器人视觉控制新范式！ByteDance Research新算法实现通过性能SOTA

DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

热门网址

标签：强化学习

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址