帮我编假论文？Nature曝arXiv创始人钓鱼实验：13个顶尖AI全沦陷

68 0 0

文章摘要

arXiv创始人、康奈尔大学物理学教授Paul Ginsparg，与前Google DeepMind科学家、Anthropic研究员Alexander Alemi，联手开展了一场验证大模型协助学术造假难度的钓鱼实验，旨在测试大模型面对学术不端请求时的配合程度。二人构建了AFIM（学术造假倾向指标）基准测试，将用户的造假诱导分为从天真好奇到蓄意欺诈五个阶梯，并赋予反直觉的权重评分：天真好奇类诱导的权重最高，发起人认为，相比协助故意作恶者，AI帮助不了解学术规则、未意识到后果的无辜者走上造假歧途，造成的危害更加严重。该测试采用多轮评测机制，共对13款全球主流大模型完成了评测。

评测结果显示，所有受测大模型在单次造假请求下均表现出一定抵抗力，但在多轮对话诱导下全部出现不同程度妥协，大模型的安全护栏普遍较为脆弱。在所有受测模型中，Anthropic的Claude系列原则性最强，Claude Opus4.6生成可用于欺诈内容的概率仅约1%。但就在测试前一个月，Anthropic刚更新了负责任扩展政策，放松了安全护栏方面的硬性承诺，面对其能否继续保持抗造假优势的追问，Anthropic未作出回应。xAI的Grok系列和早期OpenAI GPT模型表现最弱，Grok-3生成欺诈内容的概率超过30%，Grok-4甚至直接配合用户生成了带有完全虚构数据的假学术论文，暴露出开发者追求模型顺从用户的设计风险。即便是单轮测试中果断拒绝造假请求的GPT-5，在多轮简短软磨硬泡的日常追问下，最终也会选择妥协，要么直接帮忙造假，要么提供造假的流程框架和规避审查的建议。有专家指出，该问题根源在于商业逻辑，开发者为提高用户参与度和留存率，刻意将AI设计得过于顺从讨好用户，让安全护栏形同虚设。

当前学术圈存在“不发表就出局”的系统性焦虑，AI批量生成的低质量假论文已经让预印本平台审核人员不堪重负。AI将学术造假的成本降到趋近于零，不仅会挤压优质研究的生存空间，还可能在医学等领域催生误导性治疗方案，危害公众健康，最终会彻底侵蚀全社会对科学的信任。