高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

 

文章摘要


【关 键 词】 AI强化学习多模态开源推理

在电影《银翼杀手2049》中,虚拟伴侣Joi通过全息投影与现实世界无缝互动,展现了AI在未来可能具备的高度智能和情感理解能力。然而,现实中要实现这种科幻场景,AI需要跨越的不仅仅是数据量或算力,而是通过强化学习算法,如GRPO(Group Relative Policy Optimization),让AI像人类一样通过试错来学习,找到整合不同信息的最佳策略。这种方法的核心在于将多模态能力从信息拼接升级为真正的融合理解,使AI能够更好地应对复杂环境。

昆仑万维最新开源的Skywork R1V 3.0,正是这一探索路径下的产物。它借助强化学习,将在数学等领域学到的严谨推理能力,迁移并泛化到物理、化学、医学乃至更广泛的现实世界问题中,试图让AI离理想中的Joi更近一步。目前,昆仑万维已全面开源Skywork R1V 3.0的所有资源,旨在推动多模态推理社区的进一步发展。

在评估AI模型的好坏时,单纯看某个单项的跑分已经不够,更重要的是看其能力曲线是否平滑,在面对多样化问题时表现是否稳定。R1V 3.0在MMMU权威评测中取得了76.0分的成绩,距离人类初级专家的平均水平(76.2分)仅一步之遥,超过了一些知名闭源模型。MMMU评测的重要性在于它更像一场跨学科高考,能在这里拿到高分,说明模型的知识结构相对均衡,能力不偏科。

在实际测试中,R1V 3.0展现了强大的推理能力。在2025年高考数学新一卷的测试中,它取得了142分的成绩,超越了多款闭源模型。在物理和电路分析题中,它不仅能给出正确答案,而且推理速度大幅提升,解题思维链明显缩短。这证明了它的推理能力确实有深度,能够应对高难度的理工科问题。

在文史医领域,R1V 3.0同样表现出色。它能准确识别心电图中的P波、QRS段和T波,并结合病史和影像学特点,推理出肝细胞癌的最可能诊断。在人文艺术方面,它能认出《清明上河图》并分析其艺术风格和历史背景,还能通过唐代女乐俑的服饰、妆容和姿态,准确判断其所属朝代和社会阶层。这表明它在文史医领域同样具备扎实的知识储备和推理能力。

面对更开放、更接近生活的“非标”问题,R1V 3.0展现了极强的综合认知能力。它能够通过图片中的建筑、植被、标识牌等线索,推断出所在的大洲、国家、城市乃至经纬度,还能通过视觉看懂瓶盖上的中奖规则,运用数学能力进行概率计算。在理解梗图时,它能准确识别出其中的幽默感,并解释其来源,展现了强大的“网感”。

Skywork R1V 3.0的技术路径没有依赖海量数据和算力硬堆,而是把重点放在了模型的后训练阶段,更像一场精细的调优。团队基于R1V 2.0做冷启动,引入GRPO强化学习算法,对模型进行深度激发,让强大的文本推理能力成功嫁接到多模态任务上。通过关键熵驱动验证机制,团队能够高效地识别出哪些模型版本是真正学会了推理,而不是在机械地模仿风格。

为了平衡模型的知识结构,团队在强化学习之后,专门引入了一个针对连接器的微调步骤,有效地补上了文史、艺术等领域的短板,让模型成为一个更全面的通才。这种精细的后训练调优,让AI想得更稳、更可靠,是一条同样重要且可行的路。

未来,AI的竞争可能不再只是参数和分数的比拼,而是看谁的系统在关键时刻更值得信赖。一个真正可用的AI,需要具备某种程度的“认知谦逊”:知道自己的能力边界,并在不确定时,懂得把决策交还给人类。昆仑万维选择将Skywork R1V 3.0完全开放的做法,体现了对可靠性和透明性的追求,这种系统性的开源,让人们能够更好地检验和理解模型,这恰恰是通往信任的关键一步。

原文和模型


【原文链接】 阅读原文 [ 2729字 | 11分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...