超越 Devin，姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

AI-Agent1年前 (2024)发布 aitechtalk

2,465 0 0

超越 Devin，姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

文章摘要

中国初创公司OpenCSG推出的StarShip CodeGen Agent在全球编程评测排行榜上取得了显著成绩，以23.67%的通过率成为普林斯顿SWEBench排行榜的第二名，同时创下了非GPT-4o基模的最高纪录。这一成就不仅体现了国内在推动语言模型实用性、智能化和自主化发展方面的领先地位，也标志着中国在真实编程挑战中逐步迎头赶上。

SWEBench评测作为一种端到端代码生成能力的量化评估工具，对AI模型在真实编程场景下的能力提出了极高要求。OpenCSG的突破得益于其对编程Agent的创新开发和大型模型算法的深度优化。公司采取了不同于传统LLM+RAG或通用Agent框架的方法，定制优化了针对软件研发领域的StarShip CodeGen Agent，并结合AST语法分析等软件工程方法，实现了各研发阶段的高精度代码生成。

在算法层面，OpenCSG的自适应教师模式针对代码版本变更问题进行优化，改善了基础模型的生成效果，尤其在API结构高频更新的项目中表现突出。此外，公司对开源理念的坚持，不仅推动了模型、代码和平台的开源，也促成了产品的快速迭代和市场的广泛认可。

OpenCSG的CEO陈冉和CTO王伟对公司的产品定位和未来发展充满信心。他们认为，大模型在生产力的提升上已无悬念，关键在于其应用形态和场景。StarShip作为OpenCSG的核心产品，旨在通过内置的智能体（如CodeReview Agent和CodeSearch Agent）组建数字员工团队，实现无需人工干预的独立工作。

除了StarShip，OpenCSG还推出了CSGHub、wukong预训练模型和CSGCoder等精准定位的产品，致力于让大模型赋能每个企业和个人。王伟强调，随着模型能力和工程技术的提升，数字员工将迎来质的飞跃，而OpenCSG正为这一变革做好准备，以期在即将到来的大模型时代发挥重要作用。