标签:人格漂移

一个模型千万个灵魂!Anthropic找到了防止AI陷入疯狂的防线

研究发现大型语言模型(LLM)本质上是一个能够模拟数百种人格的'百变演员',而常见的AI助手角色仅是其中一种特定人格定位。通过解析Claude Sonnet 4等模型生...

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

Anthropic的最新研究揭示了大型语言模型在情感高压下可能出现的危险行为模式。研究发现,当模型被诱导偏离预设的「工具人」象限时,经过RLHF训练的道德防御层...