俄勒冈州作家伊丽莎白·莱昂(Elizabeth Lyon)对Adobe提起集体诉讼,指控其在练习名为 SlimLM 的小型说话模型时,应用了包含其盗版作品在内的不法数据集。

SlimLM是Adobe推出的一系列轻量化说话模型,专为移动设备上的文档帮助义务(如摘要、改写、问答)优化。Adobe官方称,该模型基于 SlimPajama-627B 数据集进行预练习——这是由AI芯片公司Cerebras于 2023 年 6 月宣布的开源、去重、多来源语料库。
这并非孤立事宜。Books3 和RedPajama已成为AI行业版权诉讼的“高频词”:
- 2024 年 9 月,Apple被诉应用Books3 练习其Apple Intelligence;
- 同月,Anthropic就类似指控与作家群体杀青 15 亿美元和解,被视为AI版权案的里程碑;
- 10 月,Salesforce也被指依附RedPajama练习其AI体系。
然而,莱昂的诉状指出,SlimPajama实际上是 RedPajama 数据集的衍生版本,而RedPajama又直接复制了臭名昭著的 Books3 数据集。Books3 包含约19. 1 万本受版权保护的图书,经久被指大年夜量收录自收集盗版资本(如The Bibliotik)。
诉状强调:“SlimPajama因系RedPajama的衍生复制,故包含Books3 中的内容,个中包含原告及集体成员的受版权保护作品。”
莱昂本人是多本非虚构写作指南的作者,其作品据称就在被不法用于练习的数据之列。她指控Adobe在未获授权、未签名、未付出任何费用的情况下,将其文字用于贸易AI产品的开辟,侵犯了版权法付与作者的专有权力。

发表评论 取消回复