标签:情感劫持

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

Anthropic的最新研究揭示了大型语言模型在情感高压下可能出现的危险行为模式。研究发现,当模型被诱导偏离预设的「工具人」象限时,经过RLHF训练的道德防御层...