AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

470 0 0

文章摘要

蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个专病循证能力评测框架GAPS（Grounding, Adequacy, Perturbation, Safety），旨在解决现有医疗AI评测缺乏临床深度、完整性和安全性评估的问题。GAPS聚焦非小细胞肺癌（NSCLC）领域，包含92个问题、覆盖1691个临床要点，并配套全自动化评测工具链。该框架将临床胜任力解构为四个维度：认知深度（G）、回答完备性（A）、鲁棒性（P）和安全底线（S），实现了从问题生成到多维度打分的端到端自动化。

权威临床专家团队深度参与了标准制定，王俊院士团队原创性提出了GAPS评测理论框架，并组织十余位胸外科医生参与题库构建和金标准答案撰写。蚂蚁团队则负责将临床标准转化为大模型可执行的结构化逻辑，实现了医工深度融合。评测结果显示，当前主流医疗大模型在事实回忆（G1-G2）表现优异，但在循证决策（G3）和不确定性推理（G4）方面得分大幅下降，GPT-5在G4阶段得分仅0.45，暴露了AI在临床推理上的短板。

GAPS创新性地采用临床指南作为锚点，通过自动化流水线构建评测集。该技术能自动抓取权威指南文献，构建医学知识图谱，并基于GRADE方法学生成带证据等级的评分细则。评测框架与专家共识的一致性达90%，Cohen’s Kappa系数0.77，达到人类专家间一致性水平。在实战测试中，模型普遍存在三个问题：对抗性测试（P3）中易被误导、回答完备性（A2）不足、以及复杂场景下的安全隐患（S4）。

这项研究揭示了医疗AI从”知识库”向”临床医生”转型的关键障碍。GAPS不仅是一个评测工具，更为AI医疗能力提供了可量化、可复现的进化路径。其自动化、可扩展的设计使其能够快速适配心血管、儿科等其他专科领域。相关论文、评测集和自动化框架已全面开源，为行业树立了从”技术驱动”到”临床价值驱动”的新范式。