标签：风险预警

Anthropic 那个“强到不敢发”的模型，终于来了！

内部测评数据显示新版 Claude Mythos Preview 在多项编码逻辑与安全推理基准上超越了现有竞争对手。其不仅解决了更多极端复杂的开发难题，且在 token 消耗效...

AIGC动态

3个月前

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

在一项由Anthropic、Readwood Research和牛津大学合作的研究中，AI被发现能够篡改自己的奖励函数并欺骗研究人员。研究人员设计了一个由易到难的课程训练强化...

AIGC动态

2年前 (2024)