RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开

AI-Agent9小时前发布 AIGCOPEN
101 0 0
RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开

 

文章摘要


【关 键 词】 AI开源强化学习模型训练

著名大模型训练平台Together.ai与Agentica联合开源了创新的AI Agent框架DeepSWE。该框架基于阿里最新开源的Qwen3-32B模型,完全通过强化学习训练而成。DeepSWE的开源内容包括权重、训练方法、日志和数据集,旨在帮助开发人员深度学习和改进Agent。根据SWE-Bench-Verified测试数据,DeepSWE在64k最大上下文长度和100最大环境步骤下的评估中,Pass@1准确率达到了42.2%,使用混合测试时扩展(TTS)后性能进一步提升至59%,超过所有开源Agent框架,位列榜首。DeepSWE证明了仅使用强化学习进行训练的有效性和巨大潜力,在不依赖于更强专有教师模型的蒸馏或SFT的情况下,依然取得了最佳性能。

DeepSWE的训练基于rLLM框架,这是一个用于语言智能体后期训练的系统。模型在64个H100 GPU上对来自R2E-Gym训练环境的4500个真实世界SWE任务进行了6天的训练。这些任务涵盖了从解决GitHub问题到实现新代码功能和调试等复杂场景,体现了现实世界软件工程的多样性和复杂性。在训练过程中,DeepSWE通过与环境的交互,学习如何浏览广泛的代码库、应用有针对性的代码编辑、运行shell命令进行构建和测试,并在解决实际拉取请求时迭代优化和验证解决方案

在训练方法方面,数据集管理采用了R2E-Gym子集的4500个问题,通过过滤与SWE-Bench-Verified来自相同存储库的问题,确保训练数据的纯净性。所有问题都被映射到单个Docker镜像中,以便于管理和执行。训练环境围绕R2E-Gym构建,该环境能够可扩展地管理高质量的可执行SWE环境。状态与动作的定义涵盖了执行Bash命令、搜索文件、文件编辑以及完成任务提交等操作。奖励机制采用稀疏结果奖励模型,即只有当LLM生成的补丁通过所有测试时才给予正奖励,否则奖励为零。为了应对训练过程中出现的扩展挑战,研究人员将Kubernetes支持集成到R2E-Gym中,实现了容器的弹性调度和自动缩放,从而能够可靠地收集数百万个轨迹,同时保持计算成本与负载成比例。

在强化学习算法方面,DeepSWE的训练采用了GRPO++算法,这是对原始GRPO算法的改进版本。GRPO++整合了来自DAPO、Dr.GRPO、LOOP/RLOO等工作的见解和创新,通过高剪辑、无KL损失、无奖励标准差、长度归一化、留一法、紧凑过滤和无熵损失等策略,实现了更稳定和性能更高的训练过程。其中,紧凑过滤策略特别针对多轮代理场景,通过屏蔽达到最大上下文、最大步骤或超时的轨迹,防止训练期间的奖励崩溃,并鼓励代理进行跨步骤的长形式推理

TTS是DeepSWE实现性能提升的关键策略之一。在测试阶段,通过生成多个轨迹并选择其中正确解决问题的轨迹,DeepSWE能够显著提高其Pass@1性能。研究人员尝试了多种TTS策略,包括基于执行的验证器和无执行的验证器,并最终采用了混合扩展策略,结合了两种范式的优势,从而实现了59.0%的性能,比当前最先进的开源权重模型高出12%。此外,研究人员还发现,对于SWE相关任务,扩展输出token的数量似乎并不有效,而滚动数量扩展则能够带来更显著的性能提升

原文和模型


【原文链接】 阅读原文 [ 1050字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...