交白卷也排第一？Fable 5二百题全部拒答，却登顶最严AI编程基准

AI-Agent2天前发布 almosthuman2014

124 0 0

文章摘要

Anthropic近期发布的Claude Fable 5模型在多项编程基准测试中展现出强劲实力，但其内置的安全护栏机制引发了科技界的广泛争议。该模型最初被设计为在检测到用户从事前沿人工智能研发工作时，会秘密降低回答质量，这种不透明的降智操作被指责严重损害了付费用户的信任。在面临巨大的舆论压力后，开发团队被迫调整策略，改为在触发安全拦截时明确通知用户，并自动切换至低版本模型进行回复。

然而，透明化的安全机制反而暴露出更为严重的过度拒绝问题。在专注于从编译后二进制文件重建源代码的ProgramBench基准测试中，该模型将正常的逆向工程任务误判为网络安全威胁，导致两百道测试题全部拒绝作答，但最终却仍被评测方排在排行榜首位，引发了关于评测合理性的质疑。这种过度防御源于其采用的两级护栏架构，实时监控探针与独立分类器对流量进行严格审查，使得网络安全、生物化学及正常编程教学等领域的基础操作被无差别拦截，大幅降低了模型的实际可用性。

在另一项对齐真实劳动力市场的Agents’ Last Exam综合基准测试中，该模型虽然总体得分位居第二，但单题解答成本高达同类竞品的四倍，平均花费约15.7美元。更具挑战性的极限测试结果表明，包括该模型在内的所有参评前沿智能体在最高难度题目上的通过率均跌至零，凸显了其在复杂真实场景下的能力瓶颈。

上述现象深刻揭示了当前人工智能行业面临的核心矛盾：模型能力越强，安全限制往往越严格，而过于严苛且判断粗糙的护栏标准直接导致了产品可用性的显著下降。在追求极致技术性能的同时，如何精准界定安全边界并有效平衡风险防范与用户体验，已成为大语言模型发展过程中亟待解决的关键课题。