文章摘要
【关 键 词】 AI科研、机器学习、自主智能体、开源大模型、工程闭环
由SciMaster团队推出的AI机器学习专家ML-Master 2.0基于国产开源大模型DeepSeek,在OpenAI权威基准测试MLE-bench中击败Google、Meta、微软等国际团队,刷新全球SOTA并登顶。这一成果标志着中国研究者在面向真实科研任务的自主智能体领域已具备国际领先的突破能力。该系统已在科技公司与实验室中落地,应用于具身智能机器人训练、理论物理模拟等前沿场景。
ML-Master 2.0是专为机器学习工程(MLE)设计的AI4AI系统,其核心在于解决长期科研演化中的关键挑战。与短程推理的智能体不同,它假设实验失败是常态,重点培养系统在无人干预下通过反复试错积累经验的能力。其创新性体现为”超长程自主”概念——能在数十小时的探索中保持目标一致性,主动规避无效路径,并将经验跨任务迁移。这种能力依赖于对上下文的深度重构:系统将运行中产生的数据分级为”经验-知识-智慧”三层认知资产,通过层次化认知缓存(HCC)机制实现动态管理。
技术架构上,ML-Master 2.0通过国产大模型DeepSeek-V3.2-Speciale驱动,在MLE-bench测试中以56.44%的奖牌率超越基于闭源模型的竞品28.3%。该测试的特殊性在于其模拟真实科研环境:要求AI在十几个甚至数十小时内持续完成实验设计、代码调试、结果分析等完整闭环,这对系统的长期认知积累能力提出极高要求。系统在无人工干预条件下展现出稳定可控的科研节奏,避免了”上下文爆炸”或”遗忘历史经验”的常见困境。
当前全球AI科研领域正形成明确共识:衡量AI科研能力的核心指标已从”答题正确率”转向”长期演化能力”。无论是Google DeepMind的AlphaEvolve、OpenAI的Frontier Science,还是美国的Genesis Mission计划,均聚焦于AI在真实科研环境中的持续迭代能力。ML-Master 2.0的突破性在于,它首次系统性验证了层次化认知管理框架在复杂科研场景中的有效性,为AI自主科学家的演进提供了可复用的技术范式。
该成果已通过SciMaster平台开放waiting list申请,其核心代码已在GitHub开源。这标志着中国团队不仅实现了技术领先,更通过开源生态推动AI4Science领域的范式转变。随着ML-Master 2.0在理论物理、具身智能等场景的持续应用,其”认知积累-经验迁移-智慧沉淀”的三阶段模型或将成为下一代科研型智能体的基础架构标准。
原文和模型
【原文链接】 阅读原文 [ 2421字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




