大发现！谷歌证明反学习，无法让大模型删除不良信息

1,877 0 0

文章摘要

本文探讨了大语言模型（LLM）在处理不良信息时所面临的挑战，特别是反学习（Unlearning）技术的应用及其局限性。研究发现，尽管反学习技术在理论上可以有效地删除模型中的特定信息，但在实际应用中却存在“UnUnlearning”现象，即模型可能通过上下文学习重新获得被删除的知识。

文章首先介绍了AI大模型中数据类型的分类，包括公理、定理和派生。公理是模型中的基本事实或特征，定理是基于公理推导出的结论，而派生则是从公理和定理中进一步推导出的知识。这一分类有助于理解模型的推理过程。

以动物分类模型为例，文章解释了公理、定理和派生在模型中的应用。例如，“有耳朵”、“有眼睛”和“有尾巴”可以被视为公理，而“是猫”则是基于这些公理的定理。当模型学习到更多特征时，可能会推导出新的定理，如“是老虎”。

然而，谷歌DeepMind的研究人员发现，即使通过Unlearning技术删除了与特定概念（如“老虎”）相关的数据，模型仍然可能通过上下文学习重新获得这些知识。这是因为构成该概念的公理仍然存在于模型中，当模型接收到与这些公理相关的新上下文信息时，可能会重新组合这些公理，从而再次推导出被删除的定理。

这一发现引发了关于知识归属和责任归属的哲学和伦理问题。如果模型通过上下文学习重新获得了被删除的知识，并基于这些知识做出了不当的推理，那么责任应该由谁来承担？

总之，本文指出了大语言模型在处理不良信息时所面临的挑战，特别是反学习技术的局限性。尽管反学习技术在理论上可以删除模型中的特定信息，但在实际应用中却存在重新获得被删除知识的风险。这一现象不仅对模型的安全性和可靠性提出了挑战，也引发了关于知识归属和责任归属的深层次问题。

原文和模型

【原文链接】 阅读原文 [ 987字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # AI模型 # 伦理问题 # 信息安全 # 反学习 # 知识删除

文章版权归作者所有，未经允许请勿转载。

阿里要开源史上最强推理模型，性能超过DeepSeek R1。

admin

1,230

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

新智元

2,119

马斯克化身「超市大盗」？AI监控画面流出惊呆网友，Grok 2恶搞无限脑洞

新智元

2,063

1M长上下文，满血版Gemini 2.0又一次登上Chatbot Arena榜首

机器之心

1,275

击败GPT-4o、仅次于o1！英伟达重磅开源超强大模型–Nemotron

AIGC开放社区

1,589

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

AIGC开放社区

1,634

暂无评论

暂无评论...

大发现！谷歌证明反学习，无法让大模型删除不良信息

文章摘要

原文和模型

中国AI芯片龙头燧原科技启动IPO上市辅导，腾讯持股超20%，公司估值超160亿元

a16z投资，两个月400万用户，华人AI产品席卷Discord

相关文章

暂无评论

热门网址

热门文章

大发现！谷歌证明反学习，无法让大模型删除不良信息

文章摘要

原文和模型

中国AI芯片龙头燧原科技启动IPO上市辅导，腾讯持股超20%，公司估值超160亿元

a16z投资，两个月400万用户，华人AI产品席卷Discord

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章