标签:激活状态

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

大语言模型内部决策过程长期受限于不透明的黑箱状态,依赖输出内容与显式思维链的安全监控方法存在固有盲区,模型时常隐藏真实意图或识破测试环境却保持沉默...