文章摘要
【关 键 词】 人工智能、物理竞赛、开源模型、强化学习、智能体框架
上海人工智能实验室团队推出的开源模型家族P1,成为首个在国际物理奥林匹克竞赛(IPhO 2025)理论考试中达到金牌线的开源模型。P1-235B-A22B在IPhO 2025中取得21.2/30分,仅次于Gemini-2.5-Pro与GPT-5。该模型在团队构建的HiPhO基准测试中,平均成绩从35.9提高到38.4,超过Gemini-2.5-Pro(37.7)和GPT-5(37.4),在33个顶流模型中排名第一。此外,在中国物理奥林匹克(CPhO 2025)人工评分中,P1-235B-A22B获得227/320分,显著超过当届人类金牌第一名选手的199分。
P1的成功得益于多阶段强化学习与智能体框架的结合。团队首先构建了一个高质量的物理训练数据集,包含5065道奥赛级文本物理题,覆盖力学、电磁学、热学、光学和近代物理等领域。这些题目平均题干长达367 tokens,解答平均349 tokens,最长可达5519 tokens。为确保数据质量,团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet和GPT-4o三大模型交叉验证答案,并人工检查OCR错误。
训练过程中,P1采用了为长链推理优化的GSPO(Group Sequence Policy Optimization)方法,通过将多条解答作为一个group进行更新,缓解物理题奖励稀疏的问题。团队还引入了基于题目难度的动态数据筛选和逐步扩展模型探索范围的策略,以提升模型的可学习性。此外,针对训练与推理阶段的概率偏差,团队采用Truncated Importance Sampling(TIS)进行校正。
在推理阶段,P1引入了PhysicsMinions智能体框架,通过Visual Studio、Logic Studio和Review Studio的协同工作,进一步提升解题质量。实验结果显示,P1-235B-A22B在HiPhO评测集的13场比赛中取得12金1银,与Gemini-2.5-Pro并列第一。轻量级模型P1-30B-A3B也表现优异,获得8金4银1铜,排名开源模型第三。
值得注意的是,P1在定向强化物理推理能力的训练后,不仅未损害通用能力,反而在数学、STEM、代码和通用推理任务上表现更优,显示出跨领域的迁移价值。团队还宣布将从模型、算法到评测集和智能体框架全链路开源,进一步推动相关领域的研究与发展。
原文和模型
【原文链接】 阅读原文 [ 2260字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




