标签:输出过滤

AI根本守不住秘密!不依靠大模型的输出过滤才是铜墙铁壁

系统提示词中常隐藏着关键凭证,但大语言模型天然难以区分开发者指令与用户诱导指令,导致核心机密极易外泄。为验证长期对抗下的防御有效性,研究团队构建了...