爱思唯尔把Meta告了：拿Sci-Hub盗版论文训练大模型

{
title: "学术出版巨头起诉Meta：用盗版论文训练Llama",
summary: "爱思唯尔等出版巨头首次起诉AI公司，指控Meta使用盗版学术平台LibGen和Sci-Hub的论文训练Llama大模型。这是主流出版集团首次对AI企业发起版权诉讼，涉及《柳叶刀》《细胞》等顶刊内容。Meta以合理使用原则抗辩，案件结果或影响AI训练数据合法性。关键数据：诉讼于5月5日提交，原告包括爱思唯尔、阿歇特、麦克米伦等，Meta称将积极应诉。",
content: "AI版权大战再升级，这次站上擂台的，是手握《柳叶刀》《细胞》等顶刊的学术出版巨头爱思唯尔。5月5日，爱思唯尔联合阿歇特、麦克米伦等出版集团，以及美国小说家Scott Turow，在纽约南区法院正式起诉Meta，指控其未经授权使用受版权保护的科研论文训练Llama大模型。这是主流出版集团首次对AI企业发起版权诉讼，标志着AI训练数据合法性问题进入新阶段。此前，作家和媒体机构是起诉AI侵权的主力，但学术出版商的加入，将争议焦点从文学作品扩展到科研论文，影响更为深远。\n\n诉状指出，Meta训练Llama主要依赖两大数据来源。一是Common Crawl通用爬虫数据集，该数据集通过全网抓取生成，原告方称其中很可能混入了未经授权的付费期刊摘要和全文。二是两大知名盗版学术平台LibGen和Sci-Hub，这两个网站常年免费传播海量付费论文、教材和学术著作，长期深陷全球版权诉讼。出版商指控，Meta通过磁力下载、文件共享等方式，从这些网站盗用学术资源。值得注意的是，本案很多证据来自去年作家告Meta案的内部员工邮件，显示Meta内部对数据来源的合法性存在争议。\n\n面对诉讼，Meta发言人表示将全力积极应诉，并打出一张王牌：合理使用原则。根据美国版权法，合理使用允许在特定条件下无需授权使用版权内容。Meta称，AI训练属于转化性使用，对原作品的新用途未取代原作市场，且有利于技术创新和公共利益。事实上，去年美国法院曾裁决，允许Anthropic在未经作者许可的情况下，使用合法购买的已出版书籍训练AI，正是基于合理使用原则。但此次案件的特殊性在于，Meta使用的数据来自盗版平台，而非合法购买，这可能会削弱其合理使用主张。\n\n目前，利用版权作品训练大语言模型是否合法，仍未形成明确司法判例。这场诉讼的结果，可能为AI训练数据的合法性划出重要边界。对于AI从业者而言，这提醒我们，在训练模型时必须重视数据来源的合规性，避免使用未经授权的版权内容。未来，AI公司与版权方的合作模式可能会更加多元化，如直接授权、数据共享等。建议从业者密切关注案件进展，同时提前布局合规数据获取渠道，以应对可能的监管变化。"}

爱思唯尔把Meta告了：拿Sci-Hub盗版论文训练大模型

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首