Anthropic天价赔款？大模型“盗版”的100000种花样

1,544 0 0

文章摘要

AI大模型的发展引发了与版权方的激烈冲突，其数据获取方式饱受争议，一个更昂贵的AI时代已经到来。

AI大模型与版权方的核心争议在于，未经授权将受版权保护作品用作训练数据，是“变革性使用”还是“侵权盗用”。2025年6月Anthropic案的裁决给出重要信号，模型训练本身可能因“变革性”不构成侵权，但获取数据方式若涉及盗版或未经授权复制则难以豁免，Anthropic或面临7500亿美元赔款，大模型厂商野蛮生长的时代或许将结束。

大模型厂商的数据“盗取”路径多样且游走在法律边缘。一是从公开抓取到蓄意“清洗”，利用网络爬虫抓取公开内容，还主动移除版权管理信息；二是格式转换，如OpenAI用Whisper转录YouTube视频内容，Anthropic通过“物理世界洗白计划”将纸质书转化为数字文件；三是使用“影子图书馆”的盗版资源，Meta、Anthropic都有此类行为；四是平台借助隐私协议获取数据，如谷歌利用隐私政策将用户数据用于训练。

AI版权战争的转折点是诉讼焦点从AI“如何使用”数据转向“从何获取”数据。最初双方围绕AI使用数据的性质争论，版权方诉讼艰难。后来版权方转向攻击数据来源合法性，法院既为大模型发展留空间，又打击盗版行为。大模型厂商中，激进派向保守派转变，如OpenAI成为数据“购买者”，Anthropic进行“苦力式洗白”。

这意味着“数据免费”时代结束，数据成为AI公司的高昂成本。内容出版商等将成为AI产业链上游有议价权的参与者，行业竞争从算法和算力竞赛扩展到数据供应链管理等多方面，拥有现金流和法务团队的科技巨头优势更强。