让AI看懂科研图表：深势科技开源150万高质量科研图文数据集

60 0 0

文章摘要

OmniScience数据集的发布标志着AI在科研文献深度理解与自动解析能力上的重要突破。该数据集由深势科技开源，包含150,000个高质量图文对，覆盖生物学、材料科学、物理学、计算机科学等10个主要学科，整合超过500万子图及约43亿词元（含19亿图像词元与24亿文本词元），为多模态语言模型提供高维知识输入基础。整套方案通过破解复杂文档版式结构，利用Uni-Parser工具实现跨栏与跨页信息精准匹配，图文配对提取准确率达100%，并通过DOI去重与图像哈希清洗剔除冗余，确保数据集质量与代表性。

针对科研图表描述普遍简略、缺乏上下文的问题，研究团队构建动态模型路由重写流水线，依据图像类型与原始说明内容将任务分派至适配模型：如Gemini系列处理扫描电镜或核磁图谱等密集型图像，超长上下文模型承担背景详述类样本，基础统计图表则由Qwen3、GPT5等高性价比模型完成。经流程处理后，描述平均长度从106.2词增至360.6词，多模态相似度评分由0.769提升至0.956，显著强化了图像与文本语义一致性；图示分布显示重写后的描述集中于更高得分区间，表明系统能有效还原图像隐含逻辑。

在算法训练层面，研究人员以OmniScience数据集微调Qwen2.5底层模型，并在多个评估标准下验证性能。实验表明，采用重写描述训练的模型在图文匹配任务中表现远超使用原始粗糙描述的对照组；评委团四维度打分体系（语言流畅、信息一致、关键准确、细节丰富）与人类专家评判达0.831一致性；更重要的是，新描述可被直接嵌入推理引擎，在不依赖原图情况下回答复杂科学问题——MMMU测试提升0.140、远程传感测试提升0.083，证明生成文本已具备专业推理支撑能力。

本工作为构建“AI科学家”系统奠定坚实数据与技术基础，使人工智能首次真正意义上突破“看图说话”的表层能力，进入科学知识自主解码与应用阶段，推动科研辅助从经验驱动向数据智能转型。