标签:防御衰减

成功率100%!中科院发现用善意迷惑AI,能让它作恶,AI也经受不住糖衣毒药的攻击

上海工程科技大学和中国科学院计算技术研究所的研究揭示了大型语言模型(LLM)安全防御机制中存在的一种名为防御阈值衰减(DTD)的现象。研究发现,随着模型...