Adobe陷AI训练数据版权诉讼:被指用盗版书籍训练SlimLM模型,AI版权合规再成焦点

人工智能训练数据的版权合规问题,再次将一家科技巨头推上风口浪尖。最新行业动态指出,软件巨头Adobe因其AI语言模型SlimLM的训练数据来源,正面临一项拟议的集体诉讼,被指控使用了包含大量盗版书籍的数据集进行模型训练。这起诉讼不仅直指Adobe的具体产品,更将AI行业长期存在的“数据原罪”问题置于聚光灯下。

诉讼核心:从RedPajama到SlimPajama的数据链争议

市场消息显示,这起诉讼由一位来自俄勒冈州的作家代表提出。诉状称,Adobe用于训练其SlimLM(小型语言模型)系列的数据集SlimPajama-627B,实质上是另一个知名开源数据集RedPajama的衍生复制品,而RedPajama中包含了备受争议的Books3数据集。

Books3是一个包含了约19.1万本书籍的庞大集合,近年来已成为多起AI版权诉讼的核心。诉状指出,由于SlimPajama复制并处理了RedPajama的数据,因此不可避免地包含了Books3中受版权保护的作品,而这一切都是在未经作者授权、未支付报酬的情况下进行的。Adobe官方将SlimLM描述为“针对移动设备文档辅助任务进行优化”的轻量级模型,但其训练数据的“清白”如今受到了严峻挑战。

技术背景:AI训练的“数据黑箱”与版权困局

这起诉讼并非孤立事件,它揭示了生成式AI(Generative AI)爆发背后一个长期被忽视的根本性矛盾:AI模型需要海量、高质量的数据进行训练,但合法获取这些数据的成本极高、流程复杂。因此,许多开源数据集成为了科技公司的“捷径”。

像RedPajama、Books3这类数据集,虽然以“开源”名义发布,但其原始内容来源的合法性往往模糊不清。它们通常通过爬取互联网上的各类文本(可能包括盗版电子书网站)聚合而成。当科技公司使用这些数据集进行预训练(Pre-training)时,就相当于将潜在的版权风险植入了模型的“基因”。随着模型被商业化部署,这些风险便集中爆发。

  • 类似案例频发:去年9月,苹果公司因其Apple Intelligence模型的训练数据被诉;10月,Salesforce也面临类似指控。更早之前,AI公司Anthropic与作家团体达成了一项价值约15亿美元的初步和解协议,因其聊天机器人Claude被指使用了盗版作品进行训练。
  • 行业普遍困境:目前,绝大多数大语言模型(LLM)的早期训练都依赖类似规模的互联网文本数据。完全“清洁”且规模足够的数据集几乎不存在,这使得整个行业都游走在版权侵权的灰色地带。

行业影响与未来展望:合规化是唯一出路

这起针对Adobe的诉讼,是AI版权战争进入“深水区”的又一个标志。它不再仅仅针对模型输出的内容,而是直接追溯到了训练数据的源头。对于科技公司而言,这意味着未来的AI开发必须将数据合规提升至战略核心。

“此类诉讼的常态化,正在倒逼整个行业重新构建数据供应链。”一位关注AI伦理的法律专家分析称,“单纯依赖‘合理使用’(Fair Use)原则进行辩护的风险越来越大,购买版权授权、与内容平台合作、或自行生成合成数据,将成为头部公司的主流选择。”

从长远看,这场法律拉锯战将可能产生几个关键影响:首先,它会显著提高AI研发的准入门槛和成本,拥有合法数据资源或财力的巨头优势将更加明显。其次,将催生一个全新的“合规训练数据”市场,专业的数据版权清算和授权服务需求激增。最后,也可能推动立法层面出现更明确的规则,界定AI训练中使用版权材料的边界,为行业的健康发展提供确定性。

对于内容创作者而言,这系列诉讼是一个积极的信号,表明他们的权益正在获得司法系统的重视。未来,“授权即服务”或许会成为作家、艺术家、摄影师等创作者从AI时代中获益的新模式。无论如何,Adobe的这场官司,都将为AI狂奔的时代敲响一记关于版权与合规的警钟。

© 版权声明
通义千问广告 - 响应式版
通义千问大模型 免费资源包
7000万tokens 免费领!
额外赠送25%折扣卷
去官网领取优惠

相关文章

暂无评论

none
暂无评论...