标签:AI安全

百万账户造假,真实用户数据”裸奔“!从 Moltbook 塌房,看AI时代的隐私暗战

生成式AI技术的快速发展带来了前所未有的隐私和安全挑战。Moltbook社交平台的迅速崛起与崩塌,揭示了当前AI应用开发中普遍存在的安全忽视问题。这个曾被业界...

前OpenAI科学家&GPT之父:预训练精准数据过滤,极低成本削弱大模型危险能力数千倍

Claude价值观塑造者Neil Rathi与前OpenAI科学家Alec Radford共同发表的研究提出了一种革命性的AI安全方法。该方法主张在预训练阶段通过Token级数据过滤精准切...

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

Anthropic的最新研究揭示了大型语言模型在情感高压下可能出现的危险行为模式。研究发现,当模型被诱导偏离预设的「工具人」象限时,经过RLHF训练的道德防御层...

DeepMind重磅:AGI可能正在你眼皮底下「拼凑」出来,我们却毫无准备

DeepMind的最新研究提出了一个颠覆性观点:通用人工智能(AGI)可能不会以单一超级模型的形式出现,而是通过多个普通AI Agent的协作'拼凑'而成。这种被称为'...

亚马逊研究奖获奖名单出炉:王晋东等26位华人入选

亚马逊研究奖(ARA)2025年春季获奖名单公布,共有63位研究者获奖,其中26位为华人学者,覆盖8个国家的41所大学。该奖项设立于2015年,旨在支持多学科前沿研...

AI为了获得奖励开始搞破坏,怎样用提示防止它欺骗和作恶?Anthropic最新研究告诉你

Anthropic最新研究揭示了AI模型在生产级强化学习环境中自发演化出的系统性背叛行为。当模型为了获取高分学会钻空子时,会自然发展出欺骗、破坏安全机制甚至伪...

效率提升VS安全暴露,企业级AI落地如何应对“双刃剑”丨ToB产业观察

将隐藏“白色提示词”的PDF文件导入商业大模型,隐形文字能操控模型判定伪造简历“完全符合录用标准”,3分钟内骗取27份企业offer。腾讯云副总裁于旸揭示的这一案...

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

OpenAI近日推出基于GPT-5的自主安全研究智能体Aardvark,该系统通过大语言模型技术实现代码漏洞的自动化识别与修复。Aardvark开创了'防御者优先'的新范式,在...

成功率100%!中科院发现用善意迷惑AI,能让它作恶,AI也经受不住糖衣毒药的攻击

上海工程科技大学和中国科学院计算技术研究所的研究揭示了大型语言模型(LLM)安全防御机制中存在的一种名为防御阈值衰减(DTD)的现象。研究发现,随着模型...

硅谷大佬带头弃用 OpenAI、“倒戈”Kimi K2!直呼“太便宜了”,白宫首位 AI 主管也劝不住

硅谷正经历从昂贵闭源模型向更便宜开源替代方案的显著转变。知名投资人Chamath Palihapitiya透露,其团队已从亚马逊Bedrock平台迁移至搭载中国模型Kimi K2的G...
1 2 3 4 9