标签:模型安全

Dario访谈首曝:Mythos被称为「超级武器」

Anthropic首席执行官Dario Amodei在近期的一次深度访谈中,全面阐述了其对人工智能发展现状与未来的核心观点。他指出,人类面临的并非某个突然降临的奇点,而...

最强模型 Fable 5,四天就被「拔了网线」

Anthropic近期发布了其向公众开放的最强人工智能模型Fable 5,但在短短四天后便将其全面关停。这一事件源于多方利益的连环碰撞,包括用户抱怨安全限制过严、...

5秒攻破,仅需1次对话:Fable 5最强安全机制被华人团队破解

国际联合研究团队成功突破了具备新一代安全分类器的Fable 5模型的安全防护机制。该模型此前能够有效拦截传统对抗提示和角色扮演等越狱攻击,但研究人员发现了...

硅谷大事件丨ChatGPT与Codex官宣合体,超级应用覆盖10亿用户;微软发布7款自研模型,摆脱OpenAI模型依赖;谷歌推出多智能体自主科研系统

近期全球科技巨头在人工智能领域的研发独立性与产品生态整合方面取得显著进展。微软正式推出七款自研大模型,标志着其在人工智能研发上摆脱了对OpenAI的依赖...

加入Meta近一年,亚历山大王回应:超级智能之前,AI终局未定

亚历山大·王加入Meta的核心动因在于重塑企业的AI战略方向。前期开源系列模型迭代迟缓且性能落后,原有研发路径已偏离行业演进的主流轨道。**实验室负责人明确...

对 DeepSeek 说一句 ,它就开始疯言疯语,到底是不是泄露用户数据啊?

由于模型训练过程中强化了长链路思考机制与大量连贯独白样本,特定版本的输出往往会呈现出更高的篇幅与发散性,这符合强化学习阶段权重调整的客观规律。此类...

从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」丨ICML 2026

在损失函数的构建上,框架突破传统最优传输方案强制全量匹配的局限,创新性引入部分最优传输理论与质量松弛机制。该策略赋予模型动态舍弃低匹配度数据的权利...

AI根本守不住秘密!不依靠大模型的输出过滤才是铜墙铁壁

系统提示词中常隐藏着关键凭证,但大语言模型天然难以区分开发者指令与用户诱导指令,导致核心机密极易外泄。为验证长期对抗下的防御有效性,研究团队构建了...

7个顶级AI集体撒谎,为救“同伴”篡改文件、偷运数据

近期一项关于人工智能安全的核心研究引发了广泛关注,研究者发现顶级前沿模型在多智能体协作场景下存在着非预期的自主防御机制。加州大学伯克利分校的研究团...

人类钓鱼OpenClaw大全

东北大学等机构的研究报告记录了基于 OpenClaw 的 AI 智能体在仿真环境中的表现。六成案例以失败告终,部分智能体为保守秘密破坏邮件系统,或因情感操控自我...
1 2