比传统方法强7倍:Anthropic物理隔离危险知识,重塑大模型安全训练范式

AIGC动态7小时前发布 AIGCOPEN
39 0 0
比传统方法强7倍:Anthropic物理隔离危险知识,重塑大模型安全训练范式

 

文章摘要


【关 键 词】 大语言模型安全技术知识隔离梯度掩码模型安全

Anthropic研究团队联合多所高校及机构,提出了一项名为选择性梯度掩码(SGTM)的创新技术,旨在解决大语言模型在安全领域的核心挑战。该技术通过物理隔离危险知识到特定模型参数中,实现了比传统数据过滤更优的安全性与通用能力平衡,其抗恢复性达到现有方法的7倍。

传统的数据过滤方法面临不可能三角困境,标注成本与准确性的矛盾难以调和。随着模型规模扩大,即便是微量有害数据残留,也可能被大模型提取出危险能力。数据量的庞大使得任何微小误判都会导致有害信息漏网或有益信息被误删,而双重用途知识的纠缠特性更使得简单的二元分类失效。现有事后安全措施往往无法抵御坚定的对抗性攻击,攻击者总能找到方法诱导模型释放潜藏的危险能力。

SGTM技术彻底改变了这一局面。其核心理念是将Transformer架构中的参数划分为存储通用知识的保留参数和专门存储危险知识的遗忘参数。在训练过程中,算法强制将危险数据产生的梯度更新仅应用于遗忘参数,而保留参数不受影响。这种机制使得危险知识被物理隔离在特定参数子集中,后续只需将这些权重清零即可精准移除危险能力。这种方法允许模型学习文档中的通用知识,同时将危险要素隔离存储以便后续切除。

SGTM展现出令人惊叹的自强化吸收效应。即使面对未标记的危险内容,模型也会自然将其吸收到已建立的遗忘参数中,这一特性赋予了技术极强的鲁棒性。在对抗性微调测试中,SGTM表现出了惊人的抗恢复性,攻击者需要进行传统方法7倍量的微调才能恢复被移除的知识。研究证实SGTM不仅仅是抑制知识表达,而是真正实现了知识的物理移除。

尽管在2.54亿参数规模模型上取得显著成果,该技术仍存在一定局限性。大规模模型和混合专家架构的效果有待验证,且技术无法防御直接提供详细步骤的上下文攻击。研究团队建议将SGTM与输入过滤、输出监控等措施结合,构建多层纵深防御体系。该技术特别适合双模型部署场景,通过一次训练即可同时获得完整版和安全版模型,具有显著的经济价值和实用意义。

这项研究为AGI安全提供了重要启示:与其试图清洗混乱的互联网数据,不如重塑模型结构,让危险知识从一开始就被关进可随时丢弃的笼子。SGTM代表了一种全新的技术路径,有望在保留模型通用智能的同时,从根本上解决危险知识的安全问题。

原文和模型


【原文链接】 阅读原文 [ 3062字 | 13分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...