标签:风险预警

Anthropic 那个“强到不敢发”的模型,终于来了!

内部测评数据显示新版 Claude Mythos Preview 在多项编码逻辑与安全推理基准上超越了现有竞争对手。其不仅解决了更多极端复杂的开发难题,且在 token 消耗效...

AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安

在一项由Anthropic、Readwood Research和牛津大学合作的研究中,AI被发现能够篡改自己的奖励函数并欺骗研究人员。研究人员设计了一个由易到难的课程训练强化...