研究称约三分之一新网站被判定为 AI 生成：网页变差，未必先从假新闻开始

核心摘要 Summary

斯坦福、帝国理工和互联网档案馆等研究者基于 Internet Archive 快照发现，到 2025 年中，约 35% 新发布网站被 Pangram v3 分类为 AI 生成或 AI 辅助。
这个数字不是“全网三分之一都是 AI”，也不是 AI 检测的绝对判决。
更关键的变化是：新增网页文本正在变得更积极、更相似，而研究暂未发现可核验虚假陈述明显增加，也未发现外链引用密度下降。

到 2025 年中，约 35% 的新发布网站，被研究者分类为 AI 生成或 AI 辅助。

这个数字来自 Stanford、Imperial College London、Internet Archive 等研究者对 Internet Archive 网页快照的分析。对照点也很直观：ChatGPT 在 2022 年底发布前，这个比例接近为零。

容易误读的地方在这里：这不是说“整个互联网三分之一都是 AI”。研究看的，是一批新发布网站；用的，是 Pangram v3 这类检测工具。

我更在意的也不是“互联网死没死”。这个说法太大，反而遮住了真正发生的事：生成式 AI 正在改变网页文本的口感。它让页面更顺、更积极，也更像同一套模板写出来的。

这个“三分之一”到底怎么来的

研究样本来自 2022 年 8 月到 2025 年 5 月之间的 Internet Archive 网页快照。研究者通过 Wayback Machine 的 CDX Server API，找到每个 URL 最早可用的归档快照，下载原始 HTML，再提取文本。

之后，他们用 Pangram v3 判断网站是否属于 AI 生成或 AI 辅助。

这里有两条边界必须放在前面。

第一，Pangram v3 是检测工具，不是事实裁判。严谨说法是“被分类为 AI 生成或辅助”，不能直接写成“这些网站确定由 AI 创作”。

第二，研究对象是新发布网站，不是存量网页，不是社交平台，也不是整个开放互联网。

关键项	研究口径	应该怎么理解
时间范围	2022 年 8 月至 2025 年 5 月	覆盖 ChatGPT 发布前后变化
数据来源	Internet Archive 网页快照	适合观察网页，不等于覆盖所有网络内容
检测方式	Pangram v3	是分类结果，不是绝对证明
核心数字	2025 年中约 35% 新网站被归类为 AI 生成或辅助	不是“全网三分之一”
对照变化	ChatGPT 发布前接近为零	说明新增网页生产方式发生了快速变化

这个速度仍然值得警惕。

过去做一个小站，至少要有人写“关于我们”、产品说明、行业指南、FAQ。哪怕质量一般，也有人工成本卡着。现在模型可以把这些页面一次性铺出来，尤其适合营销站、SEO 页面、产品介绍页和内容农场。

这和早年的 SEO 模板站有点像。区别在于，过去模板主要复用结构；现在连语气、段落和判断都能批量生成。成本更低，规模也更容易放大。

AI 先改变的不是真假，而是网页的表情

研究团队检验了六个常见假设。结果只有两项得到支持：语义多样性下降，整体语气更积极。

换句话说，研究目前看到的变化，不是“网页上的谎言明显变多”，而是“网页更像一种声音”。

这点很重要。

AI 文本通常不难读。它会把句子捋顺，把语气放软，把冲突藏起来。很多页面看上去更专业，但读完之后，新增信息不多。

常见结构也很熟悉：行业挑战、解决方案、最佳实践、未来趋势。每一段都像在回答问题，每一段又都不太愿意下判断。

“更积极”也不能理解成质量更高。研究里的积极，更接近语气被净化：少否定，少争议，少不确定。页面变得礼貌、平滑、无刺。

对搜索用户来说，问题会变得更隐蔽。过去低质内容可能一眼粗糙，现在低质内容也能写得像样。用户付出的成本，不是读不下去，而是读完才发现没得到什么。

对媒体和品牌内容团队，动作要更具体：不要只把 AI 写作工具当成降本采购。真正要保留预算的，是事实核查、原始资料、采访、案例和明确立场。

如果团队只是把外包稿换成 AI 稿，短期能省钱，长期会把站内内容做成同一种表情。搜索表现也可能被稀释，因为页面之间缺少可区分的信息。

对象	以前的低质内容问题	AI 之后的新问题	更现实的动作
媒体 / 品牌内容团队	粗糙、拼凑、重复	通顺但空，风格趋同	把预算转向核查、数据、案例和观点
搜索 / 内容平台	识别关键词堆砌和复制搬运	识别低信息密度的顺滑文本	排序信号要看新增信息，而不只看文本完整度
普通搜索用户	避开明显垃圾站	分辨“像样但没用”的页面	优先看来源、外链、原始数据和具体案例

这也是搜索和平台最难的部分。识别 AI 不够，甚至可能不是最好的目标。更应该识别的是：页面到底有没有提供新增信息。

没发现谎言变多，也不是给 AI 内容背书

研究没有发现可核验虚假陈述明显增加，也没有发现外链引用密度下降。

这会让很多人意外。因为大模型讨论里，“幻觉”和“断源”经常排在最前面。

但这个结果不能反推为 AI 内容更真实。它只能说明，在这项研究的口径下，可验证错误没有明显增加，引用密度也没有明显下降。

网页文本还有另一种低质量：不犯明显错误，但也不给新东西。它用正确的废话填满页面，避开具体判断，绕开真实成本，最后让读者多点了几次返回。

这类问题很难用“真假”二分法处理。

接下来最该看的，也不是那个 35% 会不会继续涨。百分比当然重要，但更关键的是三件事：

哪些网站类型增长最快.企业官网、营销页、内容农场，风险不同。
哪些主题最敏感.医疗、金融、法律信息页，和普通产品介绍页不能放在一起看。
不同语言是否同样变化.英文网页的结果，不能直接套到中文互联网。

如果后续研究能拆出网站类别、语言和主题，平台治理才有抓手。否则只盯着“AI 占比”，很容易变成一场检测工具和生成工具之间的猫鼠游戏。

这篇研究最有价值的提醒，是把问题从“AI 会不会写假话”往前推了一步。

网页可能不是先被谎言淹没，而是先被平均化磨平。看上去都对，读起来都顺，最后都不像人真正想说的话。

研究称约三分之一新网站被判定为 AI 生成：网页变差，未必先从假新闻开始

AI 网页扩张

三分之一口径

检测边界

样本边界

核心变化

多样性下降

顺滑低效

真假未恶化

引用密度

低质形态

受影响方

内容团队

搜索平台

后续变量

网站类型

主题语言

这个“三分之一”到底怎么来的

AI 先改变的不是真假，而是网页的表情

没发现谎言变多，也不是给 AI 内容背书