当调查网站开始反向“盯梢”大厂：Meta、微软与一场不太体面的自动化侦察

核心摘要 Summary

一个名为 TBOTE Project 的调查项目公开宣称，自己监测到来自 Meta、微软相关网络的大规模自动化抓取行为，甚至包括版本比对、作者追踪和登录探测。
这件事最耐人寻味的地方，不是“爬虫来了”，而是当平台公司、云基础设施与 AI 抓取工具混在一起时，外界已经很难分清：这是正常索引、舆情监控，还是对调查者的数字化侦察。

一家小型调查网站，给科技巨头记了一本“来访日志”

这年头，网站被爬虫访问不稀奇。真正稀奇的是，网站主人把爬虫的脚印一条条捡起来，摊在阳光下，然后指着日志说：别装了，我知道你是谁。

TBOTE Project 最近发布了一份颇有火药味的说明，称从 2026 年 3 月 23 日开始，他们记录到来自 Meta 和微软注册网络的大量访问。其中，Meta 的 AS32934 Ashburn 基础设施内有 70 个独立 IP 发起了 1285 次请求；微软 AS8075 则出现了 18 个 IP，共 1659 次请求。单看数字并不算夸张，真正让人皱眉的是访问方式：同一份文档被用渲染页、源代码页、raw 文件、diff、patch、bundle 等多种路径反复拉取，甚至追踪到不同提交版本之间的编辑历史，还去点了 /issues/new，尝试接近需要登录才能访问的页面。

换句话说，这不像一个普通搜索引擎在“扫街”，更像一个很懂 Git 仓库、也很懂情报收集的人，在对这份调查资料做系统性归档。TBOTE 的说法很直接：这不是有人从 Reddit 点进来看热闹，这是自动化提取研究内容、来源线索、编辑历史和互动数据。

它把 Meta 相关请求归因为 meta-externalagent/1.1，把微软网络中的请求归因为 GPTBot/1.3 和 OAI-SearchBot/1.3。后两者尤其敏感，因为这意味着 OpenAI 的爬虫跑在微软 Azure 的基础设施上，而被访问对象恰恰又在调查与微软员工、开源治理、年龄验证立法游说有关的议题。你能理解为什么这事一旦摆上台面，会迅速从“技术抓取”升级成“权力关系”的问题。

问题不在于抓取本身，而在于“抓到了哪一层”

如果只是抓页面正文，这几乎是互联网的日常呼吸。Googlebot、Bingbot、各种 SEO 工具和模型训练爬虫，大家都见怪不怪。可 TBOTE 公布的细节显示，对方并不满足于“读文章”，而是在试图重建这份调查的完整生产过程：谁改过、什么时候改、改了什么、哪些文件作者贡献最多、哪些议题被持续关注、仓库有哪些观察者、贡献者关系怎么分布，连 RSS 和 Atom 订阅都设上了。

这就有点像你在报摊买了一份杂志，本来只需要看封面和文章，结果却顺手把编辑部值班表、校对痕迹、印厂修改单和订阅名册也一并打包带走。法律上未必马上越线，观感上已经很难说得过去。

更有意思的是 TBOTE 特别强调了一种典型的限流规避方式：70 个 IP 在同一个 /24 网段里轮换，约每两秒切换一个 IP，每个 IP 只发一次请求。这是很多反爬系统最头疼的打法之一，因为它不靠高并发硬冲，而是把压力切成细碎的针脚，像雨点一样均匀落下。技术上，这很“专业”；公关上，这很难看。

说到底，今天的企业爬虫早就不是十年前那个“抓个网页标题和摘要”的朴素工具了。它们越来越像基础设施化的侦察系统：可以做全文抓取、版本快照、关系图谱分析、持续更新监控，还能借助云服务和第三方安全扫描平台，把来源洗得更模糊。TBOTE 随后的更新更进一步点名 Google Cloud、Palo Alto Networks Cortex Xpanse、Censys 等组织也在进行自动化探测。这里最让人不安的，不是某一家公司“看了你的网页”，而是一个小型调查项目发现自己正处在多层自动化观察之下，像被一群望远镜同时盯住。

为什么是现在：AI 抓取、平台权力与开源政治撞到了一起

这件事发生在 2026 年，一点都不偶然。过去两年，围绕 AI 训练抓取、搜索索引、机器人协议、内容授权和平台治理的冲突，已经从媒体行业烧到论坛、代码托管、学术数据库，甚至个人博客。原来大家争论的是“能不能抓”，现在争论的是“抓到什么程度算过界”。

尤其当对象不是新闻门户，而是带有版本历史、提交记录、作者归属和议题网络的代码仓库时，抓取的意义就变了。仓库不是静态网页，它是一个组织行为的时间轴。你抓一次 bundle，等于把阶段性历史快照带走；你做一轮 diff，等于在重建作者思路；你看 watchers、forks、issues 和 contributor graph，本质上是在摸一张社交拓扑图。对于调查记者、开源治理观察者或企业法务来说，这些信息的价值，远高于一篇单独文章。

TBOTE 关注的主题也很敏感：它把 systemd 社区治理、Amutable GmbH 的公司关系、Meta 和微软在儿童安全和年龄验证相关立法上的游说、以及若干人员流动放在一起，试图讨论大厂、政策和开源社区之间的影响链条。你可以不认同它的结论，但很难否认，这类调查一旦触碰到企业游说、前员工流动、合规成本转嫁，就会天然进入“谁都不想被动挨打”的区域。

这也是为什么我认为，这篇公告最重要的价值并不在“抓包曝光”本身，而是在它给一个越来越现实的问题立了标靶：当 AI 爬虫、企业情报系统、云服务和安全扫描商业化地融合在一起后，被调查者和调查者之间的力量不对称会被进一步放大。以前大公司找公关、法务和研究团队；现在，它们还可以顺手调动自动化基础设施，在极短时间内复制、比对、跟踪一整套公开资料。公开信息当然可以看，但“看”的尺度、频率和意图，已经不是一个轻飘飘的 robots.txt 能解决的事。

这像不像“监视”？答案其实没那么简单

TBOTE 用了一个很重的词：surveillance，监视。站在他们的立场，这个词不难理解。对一个只有三个人的调查项目来说，对面是年营收以百亿、千亿美元计的科技公司和安全厂商，还带着轮换 IP、TLS 指纹、持续订阅、全量快照这些动作，压迫感一定是真实的。

但从行业角度看，这里又有一个不能偷懒回避的问题：自动化访问到底从哪一刻开始，才算“监视”而不只是“索引”或“风险扫描”？Meta 的 meta-externalagent 可能用于搜索或内容理解，OpenAI 的 GPTBot 和 OAI-SearchBot 在定义上也可以是模型与搜索产品的抓取组件。Palo Alto 的 Cortex Xpanse 本来就是做攻击面管理的，Censys 的商业模式更是建立在全网测绘上。它们都能找到一套业务上的自洽解释。

可问题恰恰在这儿：今天很多“合理功能”叠加起来，效果就像一种新型的低可见度监控。每个单独动作都能解释，但连在一起看，就形成了对对象的持续性画像、版本回溯和行为推断。用户未必看得见，监管也未必跟得上。这个灰区，未来一定会越来越热闹。

媒体行业其实早就踩过类似的坑。多家新闻机构与 AI 公司围绕抓取和训练展开诉讼，核心争议不是“网页是否公开”，而是“公开是否等于可以被无限制提取、重组、商业利用”。代码平台与开源社区可能很快也会迎来属于自己的版本：公共仓库是否应被视为可任意建模和画像的对象？提交历史和作者轨迹是不是“公开但敏感”的新类别数据？如果一个组织系统性跟踪调查者的更新节奏，这算不算寒蝉效应的一部分？

真正尴尬的，是大公司越来越懒得把体面做足

我看完整份说明后，最大的感受不是惊讶，而是一种熟悉的无奈：大公司越来越擅长用“自动化”来稀释责任。不是公关部门来问询，不是法务发函指出错误，也不是工程师实名沟通方法论，而是让爬虫、扫描器、第三方测绘服务先跑一圈。这样做的好处是成本低、效率高、可否认空间大；坏处也很明显，一旦被发现，姿态会显得非常难看。

TBOTE 最后那句其实相当锋利：这不是反驳，不是法律挑战，也不是事实更正，而是在监视调查你的人。某种意义上，它点破了一个时代症状——平台企业最强的能力，不只是分发信息，而是无声地回收信息、整理信息、重建信息生产过程。它们像巨大的吸尘器，习惯先把一切都吸进来，再决定要不要回应。

当然，TBOTE 的措辞也带着明显的对抗性，甚至不乏情绪化表达。作为记者，我会提醒读者保持一分冷静：日志能说明访问行为异常密集，也能说明抓取具有针对性，但不能自动推出背后的全部动机。是内部合规审查、品牌风险评估、AI 搜索索引，还是对调查内容的定向研判，外界暂时无从证实。新闻判断不能因为一方说得更有戏剧性，就把推测当结论。

但即便如此，这件事仍然非常值得被看见。因为它让我们意识到，今天的互联网不再只是“谁在发声”，也是“谁在暗中收集发声者的全部上下文”。而当这种能力掌握在少数大型平台、云厂商和安全公司手里时，公开透明并不总是带来自由，它有时也会带来被高分辨率扫描的脆弱感。

如果未来几年，调查记者、独立研究员、开源维护者都开始学习如何给访问者做指纹识别、日志归档和行为分析，那将是一个颇具讽刺意味的画面：曾经最擅长被观察的人群，开始认真学习如何观察观察者。这既像反击，也像这个时代不太光彩的注脚。

当调查网站开始反向“盯梢”大厂：Meta、微软与一场不太体面的自动化侦察

大厂自动化侦察

事件脉络

Meta访问特征

微软访问特征

抓取深度

行动定性

技术伪装

业务自洽

深层动因

情报获取

防御机制

衍生风险

隐私边界

弱势方反制

一家小型调查网站，给科技巨头记了一本“来访日志”

问题不在于抓取本身，而在于“抓到了哪一层”

为什么是现在：AI 抓取、平台权力与开源政治撞到了一起

这像不像“监视”？答案其实没那么简单

真正尴尬的，是大公司越来越懒得把体面做足