标签:安全防御

Google瞧不上Harness:发更强TPU搞Agent全家桶,还随手替苹果发布了新Siri

Google Cloud Next 大会宣告试验阶段结束,核心聚焦于智能体架构。谷歌云首席执行官明确表示不再沿用模糊概念,而是推出完整的五层架构体系,旨在争夺企业智...

「你是专家」竟成AI幻觉毒药?新论文一巴掌揭穿提示词最大骗局

本文探讨了“你是专家”类人格化提示在大语言模型中的实际效果与内在机制。研究发现,强制模型扮演专家角色虽能提升其生成式任务(如写作、风格控制、安全拒答...

喊话特朗普重视AI风险,Anthropic CEO万字长文写应对方案,这方案也是Claude辅助完成的

Anthropic联合创始人兼CEO Dario Amodei近期发表题为《技术的青春期》的万言长文,将当前AI发展阶段类比为人类文明的'青春期'——技术能力快速增长的同时,社会...

复旦大学团队提出跨模态越狱防御新架构 BlueSuffix

复旦大学联合香港城市大学、新加坡管理大学的研究团队在视觉-语言模型安全防御领域取得重要进展,提出了一种基于强化微调的黑盒防御新架构——BlueSuffix。该架...