{
title: "学术出版巨头起诉Meta:用盗版论文训练Llama",
summary: "爱思唯尔等出版巨头首次起诉AI公司,指控Meta使用盗版学术平台LibGen和Sci-Hub的论文训练Llama大模型。这是主流出版集团首次对AI企业发起版权诉讼,涉及《柳叶刀》《细胞》等顶刊内容。Meta以合理使用原则抗辩,案件结果或影响AI训练数据合法性。关键数据:诉讼于5月5日提交,原告包括爱思唯尔、阿歇特、麦克米伦等,Meta称将积极应诉。",
content: "AI版权大战再升级,这次站上擂台的,是手握《柳叶刀》《细胞》等顶刊的学术出版巨头爱思唯尔。5月5日,爱思唯尔联合阿歇特、麦克米伦等出版集团,以及美国小说家Scott Turow,在纽约南区法院正式起诉Meta,指控其未经授权使用受版权保护的科研论文训练Llama大模型。这是主流出版集团首次对AI企业发起版权诉讼,标志着AI训练数据合法性问题进入新阶段。此前,作家和媒体机构是起诉AI侵权的主力,但学术出版商的加入,将争议焦点从文学作品扩展到科研论文,影响更为深远。\n\n诉状指出,Meta训练Llama主要依赖两大数据来源。一是Common Crawl通用爬虫数据集,该数据集通过全网抓取生成,原告方称其中很可能混入了未经授权的付费期刊摘要和全文。二是两大知名盗版学术平台LibGen和Sci-Hub,这两个网站常年免费传播海量付费论文、教材和学术著作,长期深陷全球版权诉讼。出版商指控,Meta通过磁力下载、文件共享等方式,从这些网站盗用学术资源。值得注意的是,本案很多证据来自去年作家告Meta案的内部员工邮件,显示Meta内部对数据来源的合法性存在争议。\n\n面对诉讼,Meta发言人表示将全力积极应诉,并打出一张王牌:合理使用原则。根据美国版权法,合理使用允许在特定条件下无需授权使用版权内容。Meta称,AI训练属于转化性使用,对原作品的新用途未取代原作市场,且有利于技术创新和公共利益。事实上,去年美国法院曾裁决,允许Anthropic在未经作者许可的情况下,使用合法购买的已出版书籍训练AI,正是基于合理使用原则。但此次案件的特殊性在于,Meta使用的数据来自盗版平台,而非合法购买,这可能会削弱其合理使用主张。\n\n目前,利用版权作品训练大语言模型是否合法,仍未形成明确司法判例。这场诉讼的结果,可能为AI训练数据的合法性划出重要边界。对于AI从业者而言,这提醒我们,在训练模型时必须重视数据来源的合规性,避免使用未经授权的版权内容。未来,AI公司与版权方的合作模式可能会更加多元化,如直接授权、数据共享等。建议从业者密切关注案件进展,同时提前布局合规数据获取渠道,以应对可能的监管变化。"}
爱思唯尔把Meta告了:拿Sci-Hub盗版论文训练大模型
AITNT
18天前
6
8
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容