
文章摘要
【关 键 词】 AI大模型、版权争议、数据获取、模型侵权、数据成本
AI大模型的发展引发了与版权方的激烈冲突,其数据获取方式饱受争议,一个更昂贵的AI时代已经到来。
AI大模型与版权方的核心争议在于,未经授权将受版权保护作品用作训练数据,是“变革性使用”还是“侵权盗用”。2025年6月Anthropic案的裁决给出重要信号,模型训练本身可能因“变革性”不构成侵权,但获取数据方式若涉及盗版或未经授权复制则难以豁免,Anthropic或面临7500亿美元赔款,大模型厂商野蛮生长的时代或许将结束。
大模型厂商的数据“盗取”路径多样且游走在法律边缘。一是从公开抓取到蓄意“清洗”,利用网络爬虫抓取公开内容,还主动移除版权管理信息;二是格式转换,如OpenAI用Whisper转录YouTube视频内容,Anthropic通过“物理世界洗白计划”将纸质书转化为数字文件;三是使用“影子图书馆”的盗版资源,Meta、Anthropic都有此类行为;四是平台借助隐私协议获取数据,如谷歌利用隐私政策将用户数据用于训练。
AI版权战争的转折点是诉讼焦点从AI“如何使用”数据转向“从何获取”数据。最初双方围绕AI使用数据的性质争论,版权方诉讼艰难。后来版权方转向攻击数据来源合法性,法院既为大模型发展留空间,又打击盗版行为。大模型厂商中,激进派向保守派转变,如OpenAI成为数据“购买者”,Anthropic进行“苦力式洗白”。
这意味着“数据免费”时代结束,数据成为AI公司的高昂成本。内容出版商等将成为AI产业链上游有议价权的参与者,行业竞争从算法和算力竞赛扩展到数据供应链管理等多方面,拥有现金流和法务团队的科技巨头优势更强。
原文和模型
【原文链接】 阅读原文 [ 2641字 | 11分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★