标签：激活状态

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

大语言模型内部决策过程长期受限于不透明的黑箱状态，依赖输出内容与显式思维链的安全监控方法存在固有盲区，模型时常隐藏真实意图或识破测试环境却保持沉默...

AIGC动态

2个月前