到 2025 年中,约 35% 的新发布网站,被研究者分类为 AI 生成或 AI 辅助。
这个数字来自 Stanford、Imperial College London、Internet Archive 等研究者对 Internet Archive 网页快照的分析。对照点也很直观:ChatGPT 在 2022 年底发布前,这个比例接近为零。
容易误读的地方在这里:这不是说“整个互联网三分之一都是 AI”。研究看的,是一批新发布网站;用的,是 Pangram v3 这类检测工具。
我更在意的也不是“互联网死没死”。这个说法太大,反而遮住了真正发生的事:生成式 AI 正在改变网页文本的口感。它让页面更顺、更积极,也更像同一套模板写出来的。
这个“三分之一”到底怎么来的
研究样本来自 2022 年 8 月到 2025 年 5 月之间的 Internet Archive 网页快照。研究者通过 Wayback Machine 的 CDX Server API,找到每个 URL 最早可用的归档快照,下载原始 HTML,再提取文本。
之后,他们用 Pangram v3 判断网站是否属于 AI 生成或 AI 辅助。
这里有两条边界必须放在前面。
第一,Pangram v3 是检测工具,不是事实裁判。严谨说法是“被分类为 AI 生成或辅助”,不能直接写成“这些网站确定由 AI 创作”。
第二,研究对象是新发布网站,不是存量网页,不是社交平台,也不是整个开放互联网。
| 关键项 | 研究口径 | 应该怎么理解 |
|---|---|---|
| 时间范围 | 2022 年 8 月至 2025 年 5 月 | 覆盖 ChatGPT 发布前后变化 |
| 数据来源 | Internet Archive 网页快照 | 适合观察网页,不等于覆盖所有网络内容 |
| 检测方式 | Pangram v3 | 是分类结果,不是绝对证明 |
| 核心数字 | 2025 年中约 35% 新网站被归类为 AI 生成或辅助 | 不是“全网三分之一” |
| 对照变化 | ChatGPT 发布前接近为零 | 说明新增网页生产方式发生了快速变化 |
这个速度仍然值得警惕。
过去做一个小站,至少要有人写“关于我们”、产品说明、行业指南、FAQ。哪怕质量一般,也有人工成本卡着。现在模型可以把这些页面一次性铺出来,尤其适合营销站、SEO 页面、产品介绍页和内容农场。
这和早年的 SEO 模板站有点像。区别在于,过去模板主要复用结构;现在连语气、段落和判断都能批量生成。成本更低,规模也更容易放大。
AI 先改变的不是真假,而是网页的表情
研究团队检验了六个常见假设。结果只有两项得到支持:语义多样性下降,整体语气更积极。
换句话说,研究目前看到的变化,不是“网页上的谎言明显变多”,而是“网页更像一种声音”。
这点很重要。
AI 文本通常不难读。它会把句子捋顺,把语气放软,把冲突藏起来。很多页面看上去更专业,但读完之后,新增信息不多。
常见结构也很熟悉:行业挑战、解决方案、最佳实践、未来趋势。每一段都像在回答问题,每一段又都不太愿意下判断。
“更积极”也不能理解成质量更高。研究里的积极,更接近语气被净化:少否定,少争议,少不确定。页面变得礼貌、平滑、无刺。
对搜索用户来说,问题会变得更隐蔽。过去低质内容可能一眼粗糙,现在低质内容也能写得像样。用户付出的成本,不是读不下去,而是读完才发现没得到什么。
对媒体和品牌内容团队,动作要更具体:不要只把 AI 写作工具当成降本采购。真正要保留预算的,是事实核查、原始资料、采访、案例和明确立场。
如果团队只是把外包稿换成 AI 稿,短期能省钱,长期会把站内内容做成同一种表情。搜索表现也可能被稀释,因为页面之间缺少可区分的信息。
| 对象 | 以前的低质内容问题 | AI 之后的新问题 | 更现实的动作 |
|---|---|---|---|
| 媒体 / 品牌内容团队 | 粗糙、拼凑、重复 | 通顺但空,风格趋同 | 把预算转向核查、数据、案例和观点 |
| 搜索 / 内容平台 | 识别关键词堆砌和复制搬运 | 识别低信息密度的顺滑文本 | 排序信号要看新增信息,而不只看文本完整度 |
| 普通搜索用户 | 避开明显垃圾站 | 分辨“像样但没用”的页面 | 优先看来源、外链、原始数据和具体案例 |
这也是搜索和平台最难的部分。识别 AI 不够,甚至可能不是最好的目标。更应该识别的是:页面到底有没有提供新增信息。
没发现谎言变多,也不是给 AI 内容背书
研究没有发现可核验虚假陈述明显增加,也没有发现外链引用密度下降。
这会让很多人意外。因为大模型讨论里,“幻觉”和“断源”经常排在最前面。
但这个结果不能反推为 AI 内容更真实。它只能说明,在这项研究的口径下,可验证错误没有明显增加,引用密度也没有明显下降。
网页文本还有另一种低质量:不犯明显错误,但也不给新东西。它用正确的废话填满页面,避开具体判断,绕开真实成本,最后让读者多点了几次返回。
这类问题很难用“真假”二分法处理。
接下来最该看的,也不是那个 35% 会不会继续涨。百分比当然重要,但更关键的是三件事:
- 哪些网站类型增长最快.企业官网、营销页、内容农场,风险不同。
- 哪些主题最敏感.医疗、金融、法律信息页,和普通产品介绍页不能放在一起看。
- 不同语言是否同样变化.英文网页的结果,不能直接套到中文互联网。
如果后续研究能拆出网站类别、语言和主题,平台治理才有抓手。否则只盯着“AI 占比”,很容易变成一场检测工具和生成工具之间的猫鼠游戏。
这篇研究最有价值的提醒,是把问题从“AI 会不会写假话”往前推了一步。
网页可能不是先被谎言淹没,而是先被平均化磨平。看上去都对,读起来都顺,最后都不像人真正想说的话。
