一篇来自 Surfaced 的实验文章,把一个被行业话术搅浑的问题重新拉回了地面:当 ChatGPT、Claude、Perplexity、Gemini 或 Google AI Mode 提到你的网站时,它们到底是当场来抓页面,还是早就从自己的索引里答了?作者没做花活,直接查 nginx access log。

结论很清楚。ChatGPT、Claude、Perplexity 至少在部分场景下会直接访问源站;Google 和 Gemini 没有在日志里留下可辨认的“专用检索机器人”痕迹,更多是依赖 Googlebot 早先建立的搜索索引。真正该盯的,不是“AI 有没有给你带流量”这种大而化之的口号,而是两件事:AI 在读你,还是人因为 AI 点进来读你。

日志证明了什么,没证明什么

作者给服务器加了自定义日志格式,记录请求时间、路径、User-Agent 和 Referer,再用同一批问题反复测试多个 AI 产品。

跑出来的结果不难懂:

  • ChatGPT 出现了 ChatGPT-User/1.0,无 referrer,且会在短时间内抓多个候选页面
  • Claude 出现了 Claude-User/1.0,还会先看 /robots.txt
  • Perplexity 出现了 Perplexity-User/1.0,至少证明它“会”直连源站
  • Gemini 和 Google AI Mode 没出现独立抓取标记,只看到了用户从 gemini.google.comgoogle.com 点击过来的正常浏览器访问

这件事真正重要的地方,在于它把三个常被混用的概念拆开了:实时检索、搜索索引、训练爬虫。ChatGPT-UserClaude-User 属于回答当下的检索;GooglebotBingbot 更像建库;GPTBotClaudeBot 则是训练用途。把这三类揉成一个“AI 流量”数字,和把进货、仓储、零售都算成同一种收入差不多,报表能看,决策会死。

Google 的“看不见”,不是缺席,是结构优势

我更在意的是 Google 这一段。很多人看到日志里没有 Gemini 的专用抓取,就想当然地说“Gemini 不会抓我的站”。这话站不住。Google 官方早就说过,AI Overviews 和 AI Mode 主要建立在 Search 索引之上,而这个索引是 Googlebot 喂出来的。

问题恰恰在这儿:OpenAI、Anthropic 把检索机器人和索引机器人分开,站长还能在日志里分辨谁在干什么;Google 把 Gemini 的回答能力更深地埋进既有搜索基础设施,站长看到的就只是一团“Google 来过”。这不是更透明,是更难审计。

“天下熙熙,皆为利来。”平台最舒服的状态,从来不是把账讲清楚,而是把不同来源的价值都收进自己口袋,再给外部留一个模糊指标。对内容网站、独立开发者、SEO 团队来说,这影响很现实:

  • 你没法只靠 HTTP 日志,判断一次 Googlebot 到底服务了传统搜索,还是服务了 Gemini
  • 你屏蔽 Google-Extended,也不等于屏蔽 Googlebot;你只是限制内容被 Gemini 用于训练或 grounding
  • 采购 AI 可见性工具时,若对方把 Googlebot 命中、训练爬虫、真实点击全混成“AI 曝光”,那基本是在卖安慰剂

这里有个横向对比很说明问题。OpenAI 在 2024 年之后逐步把 bot taxonomy 写得更清楚,Anthropic 也把 Claude-UserClaude-SearchBotClaudeBot 分开列明;Google 则延续搜索时代的老路,把 AI 能力包进原有索引机器里。历史上铁路、石油、搜索都干过同一件事:谁控制基础设施,谁就控制解释权。今天只是换成了 AI 回答层。

对谁最有用:不是普通用户,是靠流量吃饭的人

普通用户其实不会关心 User-Agent 里那串字母。真正该把这事看明白的,是靠内容分发、自然搜索、产品官网转化吃饭的人。

如果你是媒体、SaaS 官网、插件开发者、电商独立站,现在最实际的动作不是追求一个漂亮的“AI 流量总数”,而是分开看两类信号:一类是 AI 是否在实时读取你的页面,另一类是它有没有把人送回来。前者关系到抓取成本、缓存策略、robots 规则;后者才关系到转化、订阅和广告。

原文还有一个很实在的提醒:Perplexity 的样本量不大,所以最多只能说它“可以”直连源站,不能说“每次都这样”。这反倒让我更信这篇实验。肯说“目前只能看到这里”,比一堆满嘴全链路洞察的仪表盘诚实得多。技术报道里,诚实往往比结论更值钱。

接下来真正该观察的变量也只有一个:各家 AI 平台会不会继续把检索、索引、训练拆得更清楚,让站长能计量、能控制、能问责;还是继续把这一切包进黑箱,再给出版方一张越来越含糊的流量报表。前者叫协作,后者叫抽水。