开源模型横扫21个科学发现任务!宽德Will联手斯坦福清北,把试错变成武器

开源模型横扫21个科学发现任务!宽德Will联手斯坦福清北,把试错变成武器

 

文章摘要


【关 键 词】 科学发现评估驱动测试缩放开源模型算法优化

宽德智能学习实验室联合多所顶尖高校推出了评估驱动科学发现通用框架,旨在突破传统路径对单一模型智能上限的依赖。研究表明,科学探索的核心瓶颈并非单纯追求模型的逻辑深度,而是对试错流程与评估反馈的系统化组织与扩展能力。该架构将探索过程拆解为并发轨迹数量、迭代深度与局部候选量三个正交维度,利用资源调度算法在多维空间中精细分配算力,有效规避单一路径早期偏差导致的收敛停滞。同时引入轨迹级后训练机制,将优化目标从单步即时奖励调整为整条路径的最终峰值,促使模型内化复杂任务的全局搜索规律。

在覆盖统计计算、底层代码优化、量子电路编译等六大前沿方向的二十一项基准测试中,该机制实现了多场景性能跃升。依托可独立放大的验证循环流水线,普通开源模型不仅实现了底层算法的自动化策略重构,在多项硬核任务中的执行效率与最优解质量更大幅领先于主流闭源系统与人类专家。实验数据确认,通过动态调节搜索宽度、探索深度与局部筛选强度,能够系统性释放模型潜力,使基础大模型在异构科学任务中完成能力跃迁。

该范式的持续效能高度依赖评估器的响应效率与反馈粒度。在验证成本极高或奖励信号离散稀疏的离散推导任务中,高频验证链路的直接迁移仍面临适配挑战。后续演进需突破维度配比的静态设定,构建能依据实时搜索态势自适应分配算力的智能中枢,并逐步从数值试探层面向具备逻辑推演与约束理解的内生决策转化。这一技术路线表明,将标准化验证闭环提升至核心计算层级,将为构建自主迭代的科研智能基础设施奠定底层架构支撑。

原文和模型


【原文链接】 阅读原文 [ 3830字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.6-plus-2026-04-02
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...