标签:越狱攻击
成功率100%!中科院发现用善意迷惑AI,能让它作恶,AI也经受不住糖衣毒药的攻击
上海工程科技大学和中国科学院计算技术研究所的研究揭示了大型语言模型(LLM)安全防御机制中存在的一种名为防御阈值衰减(DTD)的现象。研究发现,随着模型...
揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?
来自北京航空航天大学等机构的研究团队提出RACE多轮越狱攻击框架,通过将有害查询转化为良性推理任务,成功突破多个主流大模型的安全防线。实验结果显示,该...
从 0 到 1 了解大模型安全,看这篇就够了
本文主要介绍了大型语言模型(LLM)的安全性研究。首先,作者解释了LLM的发展历程,包括BERT、T5和ChatGPT等模型的演变。接着,文章讨论了大模型的安全性挑战...






