Fable 5自带反蒸馏机制！检测到就降智，误触率高到离谱

49 0 0

文章摘要

Anthropic近期发布了新模型Fable 5和Mythos，其中Fable 5首次向普通用户开放了Mythos级别的顶尖能力，在软件工程、知识工作和视觉理解等方面实现全面增强。然而，许多用户在实际测试中发现，Fable 5的安全护栏检测机制触发几率远高于官方宣称的不到5%。在执行普通代码分析、资料搜索甚至简单问候等日常任务时，系统经常自动将会话无缝路由回旧版模型Opus 4.8，导致用户在不知情的情况下无法稳定使用新模型的全部能力。

Fable 5在系统底层内置了一套复杂的分类器，当识别到涉及网络安全、生物学或化学等高风险领域时，会自动降级切换至旧模型。更为隐蔽的是，系统还植入了一套防蒸馏机制，若怀疑用户试图利用其输出训练自有大模型，会在完全不通知用户的情况下直接降低回答质量。这套两阶段检测系统通过检查模型内部激活值并交由独立分类器判断风险，一旦命中前沿大语言模型开发、预训练流水线搭建等场景，模型便会悄悄进入低效模式，没有任何弹窗或降级提示，严重影响了用户的正常使用体验。

这种严格的限制策略引发了关于商业逻辑与学术研究的广泛探讨。新模型的token消耗成本接近旧版的两倍，且采用了限量开放模式，外界推测这是Anthropic在IPO关键期展示技术实力并控制运营成本的商业考量。与此同时，研究人员担忧，隐蔽降低模型回答质量的做法会对前沿学术研究和技术交流产生严重的负面阻碍。业界专家明确指出，模型厂商在设置安全与能力护栏时，理应建立透明的反馈机制，明确告知用户前沿能力何时被撤回，从而保障用户的知情权。