当调查网站开始反向“盯梢”大厂:Meta、微软与一场不太体面的自动化侦察

一家小型调查网站,给科技巨头记了一本“来访日志”
这年头,网站被爬虫访问不稀奇。真正稀奇的是,网站主人把爬虫的脚印一条条捡起来,摊在阳光下,然后指着日志说:别装了,我知道你是谁。
TBOTE Project 最近发布了一份颇有火药味的说明,称从 2026 年 3 月 23 日开始,他们记录到来自 Meta 和微软注册网络的大量访问。其中,Meta 的 AS32934 Ashburn 基础设施内有 70 个独立 IP 发起了 1285 次请求;微软 AS8075 则出现了 18 个 IP,共 1659 次请求。单看数字并不算夸张,真正让人皱眉的是访问方式:同一份文档被用渲染页、源代码页、raw 文件、diff、patch、bundle 等多种路径反复拉取,甚至追踪到不同提交版本之间的编辑历史,还去点了 /issues/new,尝试接近需要登录才能访问的页面。
换句话说,这不像一个普通搜索引擎在“扫街”,更像一个很懂 Git 仓库、也很懂情报收集的人,在对这份调查资料做系统性归档。TBOTE 的说法很直接:这不是有人从 Reddit 点进来看热闹,这是自动化提取研究内容、来源线索、编辑历史和互动数据。
它把 Meta 相关请求归因为 meta-externalagent/1.1,把微软网络中的请求归因为 GPTBot/1.3 和 OAI-SearchBot/1.3。后两者尤其敏感,因为这意味着 OpenAI 的爬虫跑在微软 Azure 的基础设施上,而被访问对象恰恰又在调查与微软员工、开源治理、年龄验证立法游说有关的议题。你能理解为什么这事一旦摆上台面,会迅速从“技术抓取”升级成“权力关系”的问题。
问题不在于抓取本身,而在于“抓到了哪一层”
如果只是抓页面正文,这几乎是互联网的日常呼吸。Googlebot、Bingbot、各种 SEO 工具和模型训练爬虫,大家都见怪不怪。可 TBOTE 公布的细节显示,对方并不满足于“读文章”,而是在试图重建这份调查的完整生产过程:谁改过、什么时候改、改了什么、哪些文件作者贡献最多、哪些议题被持续关注、仓库有哪些观察者、贡献者关系怎么分布,连 RSS 和 Atom 订阅都设上了。
这就有点像你在报摊买了一份杂志,本来只需要看封面和文章,结果却顺手把编辑部值班表、校对痕迹、印厂修改单和订阅名册也一并打包带走。法律上未必马上越线,观感上已经很难说得过去。
更有意思的是 TBOTE 特别强调了一种典型的限流规避方式:70 个 IP 在同一个 /24 网段里轮换,约每两秒切换一个 IP,每个 IP 只发一次请求。这是很多反爬系统最头疼的打法之一,因为它不靠高并发硬冲,而是把压力切成细碎的针脚,像雨点一样均匀落下。技术上,这很“专业”;公关上,这很难看。
说到底,今天的企业爬虫早就不是十年前那个“抓个网页标题和摘要”的朴素工具了。它们越来越像基础设施化的侦察系统:可以做全文抓取、版本快照、关系图谱分析、持续更新监控,还能借助云服务和第三方安全扫描平台,把来源洗得更模糊。TBOTE 随后的更新更进一步点名 Google Cloud、Palo Alto Networks Cortex Xpanse、Censys 等组织也在进行自动化探测。这里最让人不安的,不是某一家公司“看了你的网页”,而是一个小型调查项目发现自己正处在多层自动化观察之下,像被一群望远镜同时盯住。
为什么是现在:AI 抓取、平台权力与开源政治撞到了一起
这件事发生在 2026 年,一点都不偶然。过去两年,围绕 AI 训练抓取、搜索索引、机器人协议、内容授权和平台治理的冲突,已经从媒体行业烧到论坛、代码托管、学术数据库,甚至个人博客。原来大家争论的是“能不能抓”,现在争论的是“抓到什么程度算过界”。
尤其当对象不是新闻门户,而是带有版本历史、提交记录、作者归属和议题网络的代码仓库时,抓取的意义就变了。仓库不是静态网页,它是一个组织行为的时间轴。你抓一次 bundle,等于把阶段性历史快照带走;你做一轮 diff,等于在重建作者思路;你看 watchers、forks、issues 和 contributor graph,本质上是在摸一张社交拓扑图。对于调查记者、开源治理观察者或企业法务来说,这些信息的价值,远高于一篇单独文章。
TBOTE 关注的主题也很敏感:它把 systemd 社区治理、Amutable GmbH 的公司关系、Meta 和微软在儿童安全和年龄验证相关立法上的游说、以及若干人员流动放在一起,试图讨论大厂、政策和开源社区之间的影响链条。你可以不认同它的结论,但很难否认,这类调查一旦触碰到企业游说、前员工流动、合规成本转嫁,就会天然进入“谁都不想被动挨打”的区域。
这也是为什么我认为,这篇公告最重要的价值并不在“抓包曝光”本身,而是在它给一个越来越现实的问题立了标靶:当 AI 爬虫、企业情报系统、云服务和安全扫描商业化地融合在一起后,被调查者和调查者之间的力量不对称会被进一步放大。以前大公司找公关、法务和研究团队;现在,它们还可以顺手调动自动化基础设施,在极短时间内复制、比对、跟踪一整套公开资料。公开信息当然可以看,但“看”的尺度、频率和意图,已经不是一个轻飘飘的 robots.txt 能解决的事。
这像不像“监视”?答案其实没那么简单
TBOTE 用了一个很重的词:surveillance,监视。站在他们的立场,这个词不难理解。对一个只有三个人的调查项目来说,对面是年营收以百亿、千亿美元计的科技公司和安全厂商,还带着轮换 IP、TLS 指纹、持续订阅、全量快照这些动作,压迫感一定是真实的。
但从行业角度看,这里又有一个不能偷懒回避的问题:自动化访问到底从哪一刻开始,才算“监视”而不只是“索引”或“风险扫描”?Meta 的 meta-externalagent 可能用于搜索或内容理解,OpenAI 的 GPTBot 和 OAI-SearchBot 在定义上也可以是模型与搜索产品的抓取组件。Palo Alto 的 Cortex Xpanse 本来就是做攻击面管理的,Censys 的商业模式更是建立在全网测绘上。它们都能找到一套业务上的自洽解释。
可问题恰恰在这儿:今天很多“合理功能”叠加起来,效果就像一种新型的低可见度监控。每个单独动作都能解释,但连在一起看,就形成了对对象的持续性画像、版本回溯和行为推断。用户未必看得见,监管也未必跟得上。这个灰区,未来一定会越来越热闹。
媒体行业其实早就踩过类似的坑。多家新闻机构与 AI 公司围绕抓取和训练展开诉讼,核心争议不是“网页是否公开”,而是“公开是否等于可以被无限制提取、重组、商业利用”。代码平台与开源社区可能很快也会迎来属于自己的版本:公共仓库是否应被视为可任意建模和画像的对象?提交历史和作者轨迹是不是“公开但敏感”的新类别数据?如果一个组织系统性跟踪调查者的更新节奏,这算不算寒蝉效应的一部分?
真正尴尬的,是大公司越来越懒得把体面做足
我看完整份说明后,最大的感受不是惊讶,而是一种熟悉的无奈:大公司越来越擅长用“自动化”来稀释责任。不是公关部门来问询,不是法务发函指出错误,也不是工程师实名沟通方法论,而是让爬虫、扫描器、第三方测绘服务先跑一圈。这样做的好处是成本低、效率高、可否认空间大;坏处也很明显,一旦被发现,姿态会显得非常难看。
TBOTE 最后那句其实相当锋利:这不是反驳,不是法律挑战,也不是事实更正,而是在监视调查你的人。某种意义上,它点破了一个时代症状——平台企业最强的能力,不只是分发信息,而是无声地回收信息、整理信息、重建信息生产过程。它们像巨大的吸尘器,习惯先把一切都吸进来,再决定要不要回应。
当然,TBOTE 的措辞也带着明显的对抗性,甚至不乏情绪化表达。作为记者,我会提醒读者保持一分冷静:日志能说明访问行为异常密集,也能说明抓取具有针对性,但不能自动推出背后的全部动机。是内部合规审查、品牌风险评估、AI 搜索索引,还是对调查内容的定向研判,外界暂时无从证实。新闻判断不能因为一方说得更有戏剧性,就把推测当结论。
但即便如此,这件事仍然非常值得被看见。因为它让我们意识到,今天的互联网不再只是“谁在发声”,也是“谁在暗中收集发声者的全部上下文”。而当这种能力掌握在少数大型平台、云厂商和安全公司手里时,公开透明并不总是带来自由,它有时也会带来被高分辨率扫描的脆弱感。
如果未来几年,调查记者、独立研究员、开源维护者都开始学习如何给访问者做指纹识别、日志归档和行为分析,那将是一个颇具讽刺意味的画面:曾经最擅长被观察的人群,开始认真学习如何观察观察者。这既像反击,也像这个时代不太光彩的注脚。