Macmillan、McGraw Hill、Elsevier、Hachette、Cengage,加上作家 Scott Turow,把 Meta 告上了法庭。
诉状的说法很直白:Meta 训练 Llama 系列模型时,未经授权复制了他们的图书和期刊文章;数据来源还包括 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag 等盗版网站,以及被指含有大量未授权版权作品的 Common Crawl。
这案子有意思的地方,不是又多了一起“AI 版权大战”。真正要看的问题更窄,也更要命:如果训练数据来自明知可疑的来源,模型又能吐出逐字或近似逐字的原文,合理使用还能挡到哪一步?
原告为什么抓住 Llama 的数据来源
这次原告不是几个作家单独维权。
五家出版商覆盖教材、学术期刊、专业出版和大众图书。Scott Turow 也是美国版权议题里长期活跃的作家代表。换句话说,这起诉讼不只是在争几本书的赔偿,还在争 AI 训练数据到底该不该进入授权市场。
诉状的核心指控有两层。
一层是复制。原告称 Meta “反复复制”受版权保护的图书和期刊文章,用于训练 Llama。
另一层是输出。原告称,在特定提示下,Llama 可以生成受版权保护内容的逐字或近似逐字片段。诉状举例说,用户输入 James Stewart《Calculus: Early Transcendentals》第 9 版中的两句内容后,Llama 会继续逐字复现后续段落。
这里要谨慎一点:这些目前是原告指控,不是法院已经认定的事实。但它们把案件焦点从抽象原则拉回了证据链。
| 争议点 | 原告说法 | 为什么关键 |
|---|---|---|
| 数据来源 | 使用 LibGen、Anna’s Archive、Sci-Hub、Sci-Mag、Common Crawl 等来源 | 关系到 Meta 是否明知使用可疑或盗版材料 |
| 模型输出 | Llama 可输出逐字或近似逐字片段 | 关系到模型是否可能替代原文的一部分用途 |
| 救济要求 | 赔偿、停止相关行为、披露训练作品清单 | 关系到出版授权、损害计算和数据审计 |
原告要求 Meta 赔偿损失、停止相关行为,并披露 Llama 训练所用图书、期刊文章及其他版权作品清单。
最后这一项最刺痛 AI 公司。没有清单,出版商很难谈授权,也很难算损害。对内容行业来说,清单就是秤。没有秤,价格只能靠吵。
合理使用不是万能挡箭牌
Meta 的回应走的是 AI 公司常见路线。
公司发言人 Dave Arnold 称,AI 正在推动创新、生产力和创造力,法院已经认可用版权材料训练 AI 可构成合理使用,Meta 会积极抗辩。
这句话不能简单说错。但它也不能直接覆盖本案。
美国法院确实已有判例认为,在特定条件下,用合法购买的书籍训练 AI 可能属于合理使用。可合法购买图书训练,和从盗版库获取材料训练,是两道题。
前者主要看转换性使用、市场替代等因素。后者还会牵出来源是否合法、公司是否知情、复制规模有多大、相关证据是否完整。
Anthropic 案是一个近处参照。法官曾认可其使用合法购买书籍训练模型可能构成合理使用,但也允许作者围绕被指盗版作品继续推进集体诉讼。Anthropic 后来同意支付 15 亿美元与作者和解。
这个对照说明一件事:AI 公司不能只拿“训练可能合理使用”挡住所有版权风险。
Meta 此前也曾在一起版权案中拿到有利判决。但那个判决有边界。法官并没有认定 Meta 使用版权材料训练语言模型就是合法的。
这给本案留下了空间:法院可以承认 AI 训练存在合理使用可能,同时继续审查 Meta 是否用了不该用的数据。
这对科技读者和出版从业者意味着什么
普通用户短期内大概率感受不到变化。Llama 不会因为一起诉讼立刻消失,开源模型生态也不会马上停摆。
但对两类人,影响已经很具体。
关注 AI 版权诉讼的科技读者,要少看口号,多看证据。接下来真正有价值的变量有三个:案件能否按集体诉讼推进;原告能否证明 Meta 明知相关来源存在盗版问题;法院如何看待“逐字或近似逐字输出”对原作市场的影响。
出版和内容版权从业者更该做动作。至少要开始整理可授权作品清单、历史授权条款和可证明的市场损害。等 AI 公司来谈时,不能只说“你用了我的内容”,还要能说清哪些内容、什么权利、怎样计价。
企业和开发团队也会被波及,尤其是使用开源模型做商业产品的团队。现在未必需要立刻迁移模型,但采购和法务评估会更谨慎。高风险场景,比如教育题库、学术检索、法律和专业内容生成,可能会延后上线,或增加输出过滤、引用检测和数据来源审查。
现实限制也要讲清楚。用户很难知道一个模型到底吃过哪些书。企业采购方也未必拿得到完整训练清单。真正的压力会落在模型提供方和内容授权市场上。
这起案子不会一次性判定所有 AI 训练侵权,也不会给所有模型发通行证。
它更像一次边界测试:训练可以讨论合理使用,但数据从哪里来、输出到哪里止,不能一直含糊下去。
