340多家美国地方新闻网站,正在限制 Internet Archive 抓取和保存它们的报道。

反常点在这里:它们防的未必是 Internet Archive 本身,而是担心 AI 公司绕道 Wayback Machine,把旧报道拿去训练模型。Nieman Lab 的表述很谨慎:目前没有出版商向其确认,AI 公司已经通过 Wayback Machine 抓取了这些内容。证据还没坐实,封锁已经先走一步。

发生了什么:封的是档案爬虫,防的是 AI 绕行

这不是单家媒体的临时动作。Nieman Lab 统计的样本里,382家新闻网站限制了至少一个 Internet Archive 相关爬虫。

其中342家是地方新闻网站,93%位于美国。

问题关键信息
谁在限制样本中382家新闻网站限制至少一个相关爬虫
地方媒体规模342家是地方新闻网站,93%在美国
主要出版集团USA Today Co.、McClatchy、Advance Local、MediaNews Group、Tribune Publishing
资本背景MediaNews Group 和 Tribune Publishing 隶属 Alden Global Capital
限制对象Heritrix、Archive-It、archive.org_bot 等 Internet Archive 相关爬虫
限制方式robots.txt 声明限制,部分网站还用 Cloudflare 等做更硬阻断
受影响者记者、研究者、历史学者、公民,以及新闻荒漠地区依赖旧报道的人

这里有个细节要说准。robots.txt 不是铁门,更像门口贴的“请勿进入”。它能表达限制,也能被合规爬虫遵守,但不等于绝对技术封锁。部分网站叠加 Cloudflare 之类工具,才更接近硬阻断。

出版商的理由也不完全一样。有的关心 AI 授权费,有的更在意署名、引用和反聚合。

The Baltimore Banner 的做法就很能说明问题:它允许 ChatGPT、Claude 等主要 AI 爬虫通过,却限制 Internet Archive。它担心的是,AI 产品从档案馆拿到内容后,不能正确回链到原始报道。

所以这件事不能简单归为“媒体反开放”。它更像出版商在 AI 版权焦虑里,把档案访问、内容授权、引用规范和谈判筹码拧到了一起。

谁最受影响:不是只影响档案馆,也影响查证链条

对关注 AI 版权和内容平台博弈的人来说,这件事说明一个信号:出版商正在把“可被机器读到的旧内容”也纳入谈判边界。以后看 AI 授权,不只看实时新闻和付费墙,还要看历史内容、档案副本、引用路径怎么处理。

对新闻从业者和媒体研究者,影响更直接。查旧报道、核对删改、追踪地方政策、污染事件、警务争议、选举记录,都可能变慢。

动作也会变。记者会更依赖本地备份、数据库订阅、图书馆馆藏和法院文件;研究团队做地方新闻语料时,要提前检查 robots.txt、抓取许可和档案可用性,不能默认 Wayback Machine 能兜底。

重度信息检索用户也会被波及。过去一条失效链接还能去 Wayback Machine 找,现在可能找不到,或只能找到更碎的版本。普通读者感知不强,但一旦要追溯本地公共事件,就会撞墙。

这就是地方新闻的悖论。

地方媒体越弱,越需要公共档案。小报倒闭、网站合并、CMS 迁移,旧报道很容易丢。过去报社还有资料室、图书管理员、剪报档案。现在岗位少了,服务器一换,十几年地方史就可能断档。

但地方媒体越弱,也越容易把档案当筹码。收入薄,版权就更敏感;议价弱,就更想堵住每一条可能被 AI 绕行的路。对出版商来说,这未必是坏心,更像求生。问题是,求生的成本被转嫁给了公共记忆。

真正的冲突:出版商怕失去定价权,公共档案怕被一起收紧

我不太买账的是,把 Internet Archive 简单放进“坏人”位置。

它当然不是无争议的圣殿。版权、经济、法律冲突,从它存在开始就没停过。纽约大学教授 Meredith Broussard 的判断很准:AI 公司只是这场老仗的新催化剂。

出版商今天最怕的,不是某个非营利档案机构多存了一份网页。

他们怕的是:内容一旦进入公共可访问的旧仓库,就可能在 AI 产业链里变成没人付费、没人署名、很难追责的训练材料。模型学了,答案吐了,流量没了,原始报道的链接也淡了。

The Atlantic CEO Nick Thompson 的说法很直白:如果你让所有内容都被抓走,你会失去谈判筹码。

这话不好听,但现实。天下熙熙,皆为利来。公共档案讲的是长期记忆,授权谈判算的是眼前筹码。到了合同桌前,后者常常更硬。

历史上,铁路、电力、报业都有类似时刻:一项基础设施被商业压力重新定价,公共利益就会被挤到边上。今天的网页档案不完全一样,它没有铁轨和电网那么可见,但功能很接近:帮社会保留可查证的过去。

接下来最该看三件事。

观察点为什么重要
出版商是否给 Internet Archive 留出非 AI、研究型访问通道如果只封不分流,受伤最大的会是记者、学者和公众查证
AI 授权协议是否覆盖历史档案和引用要求这决定媒体能否拿回定价权与署名权,而不是只做姿态
robots.txt 限制会不会扩大到更多地方媒体集团如果集团化封锁继续扩散,地方公共记录会更碎

我更在意的是,新闻业有没有能力把两件事拆开:一边防止 AI 公司无偿吞内容,一边保住公共档案的长期可用。

如果做不到,结果会很讽刺:为了防止机器拿走新闻,人类先把新闻从可查证的历史里撤下来了。

开头那个数字,340多家地方媒体,不只是版权焦虑的温度计。它提醒我们,AI 版权战打到深处,争的不是一条爬虫规则,而是谁能给新闻定价,谁能留下新闻的出处,谁还能回头查证过去。