数字权益组织 Fight for the Future 正在向主要媒体领导层施压,要求《纽约时报》、The Atlantic、USA Today 等新闻机构重新允许非营利组织 Internet Archive 旗下的 Wayback Machine 保存其网页新闻。请愿书称,一些媒体以防止 AI 抓取内容为由,阻止这一公共网页存档工具继续收录新闻报道。
这件事的重要性不在“某几家媒体和一个存档网站起了冲突”,而在新闻业正在把两个问题绑在一起处理:一边是生成式 AI 训练和内容抓取带来的版权焦虑,另一边是新闻作为公共记录能否被第三方长期保存。前者需要规则,后者不能轻易成为牺牲品。
请愿点名三家媒体,目标是媒体领导层
Fight for the Future 的请愿对象是主要媒体机构的领导层,页面重点点名《纽约时报》、The Atlantic 和 USA Today。请愿书要求这些媒体公开承诺与 Internet Archive 合作,把新闻保留在 Wayback Machine 中。
Internet Archive 是一家非营利组织,Wayback Machine 长期承担网页快照和新闻存档功能。对新闻业来说,它不是普通搜索缓存,而是很多记者、研究者、事实核查者用来追溯网页变化、核对已删除内容和保存链接证据的基础设施。
请愿书给出的几个事实锚点包括:自今年 2 月起,《纽约时报》被指要求 Internet Archive 停止通过 Wayback Machine 保存其记者作品;Wired 报道称,USA Today 一边发布依赖 Wayback Machine 的报道,一边阻止其自身内容被同一工具存档;The Atlantic CEO 曾就相关讨论发声,但请愿方称其并未承诺解决方案。
| 对象 | 行动或状态 | 争议点 |
|---|---|---|
| 《纽约时报》 | 请愿书称其自今年 2 月起阻止 Wayback Machine 保存内容 | 防 AI 抓取与公共存档被捆绑处理 |
| The Atlantic | 高管曾回应相关讨论,但未承诺方案 | 媒体政策仍缺少可验证的折中路径 |
| USA Today | 被指在报道中使用 Wayback Machine,同时阻止自身内容被存档 | 使用公共档案与贡献公共档案之间出现落差 |
| Internet Archive | 非营利机构,运营 Wayback Machine | 与绕过付费墙、无视规则的仿冒存档站不同 |
这里不能扩大为“所有新闻网站都停止被 Wayback Machine 存档”。目前能确认的是,部分主要媒体正在采取限制措施,并且这种做法已足以引发新闻业公共档案层面的担忧。
防 AI 抓取是真问题,但公共存档不是同一个问题
媒体担心 AI 公司抓取新闻内容,并非空穴来风。过去两年,出版商与 AI 公司围绕训练数据、摘要展示、内容授权的冲突不断升温。新闻机构限制爬虫、调整 robots.txt、谈授权合同,都是行业正在摸索的防线。
但 Fight for the Future 的判断是,把 Wayback Machine 也挡在门外,可能打错了对象。请愿书称,这些媒体引用的 AI 风险偏假设性;它没有否认 AI 抓取风险存在,而是认为 Internet Archive 这样遵守规则、长期运营的公共存档工具,不应与无视规则的抓取者同等处理。
这个区分很关键。AI 公司如果选择不遵守规则,仍可能通过其他方式抓取网页内容;而 Wayback Machine 的价值恰恰在于它提供一个相对中立、可追溯、面向公众的历史记录。把合规存档工具关掉,不一定能挡住最激进的抓取者,却会先伤到依赖档案的人。
历史上,新闻网页并不稳定。标题会改,段落会补,页面会下线,地方媒体会关闭,旧链接会失效。纸质报纸时代,图书馆和缩微胶片承担过一部分保存功能;进入网页时代,Wayback Machine 成了很多公共记录的实际备份。这个背景在请愿页面没有展开,但它决定了争议的分量。
最先受影响的是记者、核查者和未来的读者
对普通读者来说,网页消失可能只是点开链接时看到 404。对记者和事实核查者来说,那可能是一条证据链断掉:某位官员过去的声明、企业曾经发布的承诺、报道初版与修订版之间的差异,都可能需要旧网页来核对。
研究者也会受影响。媒体研究、政治传播研究、公共政策回溯,常常依赖新闻网页在不同时间点的状态。如果主流媒体内容无法进入第三方存档,未来研究者看到的新闻史就会变薄,甚至只剩下平台和媒体自己愿意保留的版本。
这并不意味着媒体没有权利保护版权,也不意味着 Wayback Machine 的所有存档边界都天然正确。真正需要观察的是,主要媒体能否给出更细的政策:例如区分 AI 训练抓取、搜索索引、公共档案保存;区分付费墙内容和公开页面;区分商业再利用和非营利历史保存。
如果这些边界迟迟没有建立,新闻机构会得到一个短期可控的内容防线,却失去一个长期可信的外部记忆系统。对一家严肃媒体来说,最有价值的资产不只是今天的流量和订阅,也包括多年后仍能被查证、被引用、被追责的记录。
