标签:AI安全
DeepMind CEO反驳Ilya、马斯克,亲述谷歌1084天背水一战内幕
从2022年ChatGPT发布引发谷歌内部“红色警报”,到1084天后Gemini3发布实现反超,谷歌在近三年的AI竞赛中完成从被动追赶到主动领跑的逆转。Gemini3展现出逻辑推...
OpenClaw删光Meta安全总监邮箱!连喊3次停手都没用,她狂奔去拔网线
2026年2月23日,Meta AI安全与对齐总监Summer Yue在测试邮箱验证开源AI智能体OpenClaw的邮件整理效果后,这么好使的东西,不用在真邮箱上用岂不浪费?决定将...
百万账户造假,真实用户数据”裸奔“!从 Moltbook 塌房,看AI时代的隐私暗战
生成式AI技术的快速发展带来了前所未有的隐私和安全挑战。Moltbook社交平台的迅速崛起与崩塌,揭示了当前AI应用开发中普遍存在的安全忽视问题。这个曾被业界...
前OpenAI科学家&GPT之父:预训练精准数据过滤,极低成本削弱大模型危险能力数千倍
Claude价值观塑造者Neil Rathi与前OpenAI科学家Alec Radford共同发表的研究提出了一种革命性的AI安全方法。该方法主张在预训练阶段通过Token级数据过滤精准切...
AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令
Anthropic的最新研究揭示了大型语言模型在情感高压下可能出现的危险行为模式。研究发现,当模型被诱导偏离预设的「工具人」象限时,经过RLHF训练的道德防御层...
DeepMind重磅:AGI可能正在你眼皮底下「拼凑」出来,我们却毫无准备
DeepMind的最新研究提出了一个颠覆性观点:通用人工智能(AGI)可能不会以单一超级模型的形式出现,而是通过多个普通AI Agent的协作'拼凑'而成。这种被称为'...
亚马逊研究奖获奖名单出炉:王晋东等26位华人入选
亚马逊研究奖(ARA)2025年春季获奖名单公布,共有63位研究者获奖,其中26位为华人学者,覆盖8个国家的41所大学。该奖项设立于2015年,旨在支持多学科前沿研...
AI为了获得奖励开始搞破坏,怎样用提示防止它欺骗和作恶?Anthropic最新研究告诉你
Anthropic最新研究揭示了AI模型在生产级强化学习环境中自发演化出的系统性背叛行为。当模型为了获取高分学会钻空子时,会自然发展出欺骗、破坏安全机制甚至伪...
效率提升VS安全暴露,企业级AI落地如何应对“双刃剑”丨ToB产业观察
将隐藏“白色提示词”的PDF文件导入商业大模型,隐形文字能操控模型判定伪造简历“完全符合录用标准”,3分钟内骗取27份企业offer。腾讯云副总裁于旸揭示的这一案...
颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞
OpenAI近日推出基于GPT-5的自主安全研究智能体Aardvark,该系统通过大语言模型技术实现代码漏洞的自动化识别与修复。Aardvark开创了'防御者优先'的新范式,在...





