当网站开始“反钓鱼”：这个开源工具想把 AI 爬虫困进一口永不见底的垃圾井

安全 2026年3月29日

GitHub 上一个名为 Miasma 的开源项目，试图用“投喂垃圾内容+无限自循环链接”的方式反制 AI 公司大规模抓取网页数据。它不只是一个有点恶作剧意味的小工具，更折射出内容创作者、独立站长与 AI 训练产业之间越来越尖锐的利益冲突。

不是不让你爬，而是让你爬到怀疑人生

如果你运营过网站，大概已经习惯了各种爬虫在后台留下的痕迹：搜索引擎来建索引，监测工具来抓状态，价格机器人来比价，当然，现在最凶猛的一类，是为大模型训练四处“扫货”的 AI 爬虫。它们胃口极大，速度惊人，抓取逻辑也往往相当粗暴。很多站长这两年最大的感受不是“流量涨了”，而是“带宽账单涨了”。

就在这种情绪里，一个叫 Miasma 的开源项目在 GitHub 上冒了出来。它的口号非常直接：把 AI 网页抓取器困进一个“无尽的毒坑”。这不是夸张修辞，而是它的工作原理。站长可以在自己的网站里埋下一些普通用户看不见的隐藏链接，把可疑爬虫引到一个专门的路径，比如 /bots。接下来，Miasma 会向这些爬虫持续返回“污染训练数据”，并在页面里继续塞入多个指向自身的链接，让爬虫像掉进迷宫一样，越爬越深。

这套设计里有一种互联网老派恶作剧的机智：你想偷看后厨菜单，我就给你递上一份永远翻不完、而且内容越来越离谱的假菜单。项目作者甚至用了很有火药味的措辞，称这是给“垃圾机器”准备的“无限自助餐”。这种情绪并不难理解。过去几年，生成式 AI 的能力建立在海量互联网文本、图片、代码之上，但这些内容从哪里来、是否经过授权、创作者有没有分成，始终是悬而未决的问题。Miasma 的流行，某种意义上正是这种不满的技术化表达。

一场越来越公开的“数据保卫战”

Miasma 看上去像个小工具，背后其实是一个越来越大的行业矛盾：开放互联网和 AI 训练经济之间，正在失去原本脆弱的平衡。

早年间，网站默认欢迎搜索引擎爬取，因为爬了能带来流量，流量还能变现。这是一种相对清晰的交换关系：你索引我的网页，给我用户入口。可大模型爬虫不太一样。它们抓走内容之后，很多时候并不会把用户送回来，反而可能在聊天界面里直接把答案“消费掉”。对于新闻媒体、论坛、知识社区、独立博客来说，这意味着自己的内容一边被吸走当燃料，一边还要面临原始流量被截流的风险。

这也是为什么，最近两年围绕“AI 是否正在偷走互联网”的争论越来越激烈。国外一些媒体和内容平台开始限制抓取，Cloudflare 也推出过针对 AI 爬虫的识别和拦截思路，开源社区里还出现了另一类更激进的项目，比如通过生成海量虚假页面来“污染”训练集的方案。Miasma属于这一思路的轻量版本：不跟爬虫正面硬碰硬，而是把它们导向一个专门设计的陷阱，让它们自己浪费时间、带宽和算力。

从技术上看，它很朴素，也因此实用。它用 Rust 编写，强调速度快、内存占用低，支持通过 Nginx 之类的反向代理部署。你可以控制端口、最大并发连接数、页面里生成多少个自指链接，甚至强制 gzip 压缩来节省出口流量。作者还特别提醒，超出并发上限的请求会直接返回 429，而不是排队等着吃资源。翻译成人话就是：我可以坑爬虫，但不能先把自己网站拖垮。

它为什么让人拍手叫好，又为什么让人有点不安

Miasma 最讨巧的地方，在于它打中了很多内容生产者的情绪。尤其是独立开发者、小型媒体、个人博客作者，他们往往没有法务团队，也没有和大模型公司谈授权的筹码。面对成规模抓取，除了改 robots.txt、封 IP、上验证码，常常没什么更优雅的手段。Miasma 提供了一种带点黑色幽默的反击：既然你不请自来，那我就请你吃点“特别料理”。

但它的争议也恰恰在这里。第一，爬虫识别从来不是百分之百准确。项目文档建议通过隐藏链接把“只会机械抓页面的机器人”引到陷阱里，同时在 robots.txt 中明确放过 Googlebot、Bingbot 等“友好机器人”。问题是，现实世界里的 bot 光谱远比文档复杂。谁算友好，谁算恶意，谁会伪装身份，这本身就是一场持续博弈。一旦误伤真正有价值的索引服务，站长可能是在“报复 AI”，也可能是在“误伤自己”。

第二，向抓取者主动投喂污染数据，到底算不算一种正当防御？从道德直觉上，很多人会说这很公平；从更长远的生态看，它又可能推动网络空间进入一种“内容军备竞赛”：一边是越来越激进的抓取器，另一边是越来越狡猾的反爬和数据污染工具。结果可能是整个公开网络的可用性下降，普通研究者、开发者和中小搜索服务反而更难生存。

更现实的一点是，Miasma 能让一些爬虫浪费资源，但未必真能改变行业结构。对资金雄厚的 AI 公司来说，错误数据可以被过滤，抓取策略也可以升级，陷阱页面最终可能只是训练流水线上的一点噪音。它像一根针，能扎出疼感，却未必能挡住整台推土机。可即便如此，这根针仍然有象征意义：它提醒所有人，互联网内容不是天然免费的矿藏，站长也不是沉默的供料者。

从 robots.txt 到“数据主权”，互联网规则正在改写

Miasma 之所以在当下特别有讨论度，不只是因为它有趣，更因为它踩中了一个时代切口：过去依赖君子协定的网络规则，正在快速失效。

robots.txt 就是最典型的例子。它本来是一种礼貌协议，不是技术壁垒。正常搜索引擎会遵守，不正常的爬虫完全可以装没看见。当 AI 公司急着为新模型搜集更多数据时，这套建立在“默认善意”上的机制就显得过于脆弱。于是，站长开始从“声明禁止”走向“技术阻断”，再进一步走向“主动反制”。Miasma 正是这种演变的产物。

这背后其实是“数据主权”问题在互联网基层的一次具象化。大公司谈的是版权授权、训练数据合规、出版合作；普通网站主面对的则是另一套更朴素的问题：谁在抓我的内容？抓了多少？我能不能拒绝？拒绝之后我靠什么执行？当法律、平台协议和行业标准还没跟上时，开源工具往往会先长出来，哪怕它们粗糙、情绪化，甚至带着一点报复色彩。

我反而觉得，这类项目的真正价值，不一定在于“毒死”多少训练集，而在于把问题重新摆到台面上。以前很多人默认，AI 的训练数据问题只是出版社、图片库和大平台的事。现在越来越多独立站长发现，自己也在被卷入这条链条。一个放在 GitHub 上的小工具，能引发如此多共鸣，说明这已经不是技术宅的冷门焦虑，而是整个内容互联网的集体神经痛。

如果顺着这个趋势看下去，未来几年大概率会出现几条并行路线：一条是更强的反爬基础设施，靠 CDN、WAF 和 bot 管理系统提升拦截能力；一条是更明确的数据授权市场，内容方和模型方建立付费抓取或合作训练机制；还有一条，则是像 Miasma 这样带有“民间反击”色彩的工具持续繁殖。它们未必优雅，却足够真实。

这不是终局，但它像一声不太客气的提醒

Miasma 还有一个细节很有意思：项目欢迎社区贡献，但“主要由 AI 生成的贡献会被自动拒绝”。这句声明既像玩笑，也像态度表白。它把整件事的情绪浓度拉得很高：我写代码反 AI 爬虫，甚至连项目协作本身都想和“AI 生成”保持距离。

你可以觉得这种姿态激进，甚至有点戏剧化；也可以把它看成当下技术社区的一种应激反应。毕竟，生成式 AI 正在重塑软件、媒体、教育和创意产业，速度快得让很多人来不及建立新的共识。Miasma 这种项目之所以吸引眼球，不是因为它多么复杂，而是因为它说出了很多人不方便直接说出口的话：如果所谓创新建立在未经允许的大规模吞食之上，那被吞食的人迟早会开始反抗。

从记者视角看，我不认为 Miasma 会成为 AI 抓取时代的标准答案。它更像一枚带刺的小路标，告诉我们这场围绕训练数据的冲突，已经从法庭、董事会和媒体社论，蔓延到了每一个小网站的服务器配置文件里。谁能定义“合理抓取”、谁能从数据价值链中分到钱、谁又该为开放互联网的可持续性买单，这些问题不会因为一个陷阱服务器而消失。

但至少现在，互联网上终于有人把门口那块牌子从“请勿入内”换成了“欢迎进来，后果自负”。这事，确实挺2025年的。

Summary: Miasma 不会单枪匹马改变 AI 公司抓取互联网的逻辑，却很可能成为一种信号：内容方正在从被动抱怨转向主动反制。我判断，未来围绕训练数据的冲突会继续升级，单靠 robots.txt 这样的礼貌规则已不够用。更现实的出路，可能是更强的技术防护加更清晰的数据授权机制并行推进；否则，开放互联网和生成式 AI 的关系，只会越来越像一场互相消耗的拉锯战。

AI爬虫Miasma反爬虫GitHub训练数据污染网站防护生成式AI内容创作者网页抓取开源项目