当网站开始“反钓鱼”:这个开源工具想把 AI 爬虫困进一口永不见底的垃圾井

不是不让你爬,而是让你爬到怀疑人生
如果你运营过网站,大概已经习惯了各种爬虫在后台留下的痕迹:搜索引擎来建索引,监测工具来抓状态,价格机器人来比价,当然,现在最凶猛的一类,是为大模型训练四处“扫货”的 AI 爬虫。它们胃口极大,速度惊人,抓取逻辑也往往相当粗暴。很多站长这两年最大的感受不是“流量涨了”,而是“带宽账单涨了”。
就在这种情绪里,一个叫 Miasma 的开源项目在 GitHub 上冒了出来。它的口号非常直接:把 AI 网页抓取器困进一个“无尽的毒坑”。这不是夸张修辞,而是它的工作原理。站长可以在自己的网站里埋下一些普通用户看不见的隐藏链接,把可疑爬虫引到一个专门的路径,比如 /bots。接下来,Miasma 会向这些爬虫持续返回“污染训练数据”,并在页面里继续塞入多个指向自身的链接,让爬虫像掉进迷宫一样,越爬越深。
这套设计里有一种互联网老派恶作剧的机智:你想偷看后厨菜单,我就给你递上一份永远翻不完、而且内容越来越离谱的假菜单。项目作者甚至用了很有火药味的措辞,称这是给“垃圾机器”准备的“无限自助餐”。这种情绪并不难理解。过去几年,生成式 AI 的能力建立在海量互联网文本、图片、代码之上,但这些内容从哪里来、是否经过授权、创作者有没有分成,始终是悬而未决的问题。Miasma 的流行,某种意义上正是这种不满的技术化表达。
一场越来越公开的“数据保卫战”
Miasma 看上去像个小工具,背后其实是一个越来越大的行业矛盾:开放互联网和 AI 训练经济之间,正在失去原本脆弱的平衡。
早年间,网站默认欢迎搜索引擎爬取,因为爬了能带来流量,流量还能变现。这是一种相对清晰的交换关系:你索引我的网页,给我用户入口。可大模型爬虫不太一样。它们抓走内容之后,很多时候并不会把用户送回来,反而可能在聊天界面里直接把答案“消费掉”。对于新闻媒体、论坛、知识社区、独立博客来说,这意味着自己的内容一边被吸走当燃料,一边还要面临原始流量被截流的风险。
这也是为什么,最近两年围绕“AI 是否正在偷走互联网”的争论越来越激烈。国外一些媒体和内容平台开始限制抓取,Cloudflare 也推出过针对 AI 爬虫的识别和拦截思路,开源社区里还出现了另一类更激进的项目,比如通过生成海量虚假页面来“污染”训练集的方案。Miasma属于这一思路的轻量版本:不跟爬虫正面硬碰硬,而是把它们导向一个专门设计的陷阱,让它们自己浪费时间、带宽和算力。
从技术上看,它很朴素,也因此实用。它用 Rust 编写,强调速度快、内存占用低,支持通过 Nginx 之类的反向代理部署。你可以控制端口、最大并发连接数、页面里生成多少个自指链接,甚至强制 gzip 压缩来节省出口流量。作者还特别提醒,超出并发上限的请求会直接返回 429,而不是排队等着吃资源。翻译成人话就是:我可以坑爬虫,但不能先把自己网站拖垮。
它为什么让人拍手叫好,又为什么让人有点不安
Miasma 最讨巧的地方,在于它打中了很多内容生产者的情绪。尤其是独立开发者、小型媒体、个人博客作者,他们往往没有法务团队,也没有和大模型公司谈授权的筹码。面对成规模抓取,除了改 robots.txt、封 IP、上验证码,常常没什么更优雅的手段。Miasma 提供了一种带点黑色幽默的反击:既然你不请自来,那我就请你吃点“特别料理”。
但它的争议也恰恰在这里。第一,爬虫识别从来不是百分之百准确。项目文档建议通过隐藏链接把“只会机械抓页面的机器人”引到陷阱里,同时在 robots.txt 中明确放过 Googlebot、Bingbot 等“友好机器人”。问题是,现实世界里的 bot 光谱远比文档复杂。谁算友好,谁算恶意,谁会伪装身份,这本身就是一场持续博弈。一旦误伤真正有价值的索引服务,站长可能是在“报复 AI”,也可能是在“误伤自己”。
第二,向抓取者主动投喂污染数据,到底算不算一种正当防御?从道德直觉上,很多人会说这很公平;从更长远的生态看,它又可能推动网络空间进入一种“内容军备竞赛”:一边是越来越激进的抓取器,另一边是越来越狡猾的反爬和数据污染工具。结果可能是整个公开网络的可用性下降,普通研究者、开发者和中小搜索服务反而更难生存。
更现实的一点是,Miasma 能让一些爬虫浪费资源,但未必真能改变行业结构。对资金雄厚的 AI 公司来说,错误数据可以被过滤,抓取策略也可以升级,陷阱页面最终可能只是训练流水线上的一点噪音。它像一根针,能扎出疼感,却未必能挡住整台推土机。可即便如此,这根针仍然有象征意义:它提醒所有人,互联网内容不是天然免费的矿藏,站长也不是沉默的供料者。
从 robots.txt 到“数据主权”,互联网规则正在改写
Miasma 之所以在当下特别有讨论度,不只是因为它有趣,更因为它踩中了一个时代切口:过去依赖君子协定的网络规则,正在快速失效。
robots.txt 就是最典型的例子。它本来是一种礼貌协议,不是技术壁垒。正常搜索引擎会遵守,不正常的爬虫完全可以装没看见。当 AI 公司急着为新模型搜集更多数据时,这套建立在“默认善意”上的机制就显得过于脆弱。于是,站长开始从“声明禁止”走向“技术阻断”,再进一步走向“主动反制”。Miasma 正是这种演变的产物。
这背后其实是“数据主权”问题在互联网基层的一次具象化。大公司谈的是版权授权、训练数据合规、出版合作;普通网站主面对的则是另一套更朴素的问题:谁在抓我的内容?抓了多少?我能不能拒绝?拒绝之后我靠什么执行?当法律、平台协议和行业标准还没跟上时,开源工具往往会先长出来,哪怕它们粗糙、情绪化,甚至带着一点报复色彩。
我反而觉得,这类项目的真正价值,不一定在于“毒死”多少训练集,而在于把问题重新摆到台面上。以前很多人默认,AI 的训练数据问题只是出版社、图片库和大平台的事。现在越来越多独立站长发现,自己也在被卷入这条链条。一个放在 GitHub 上的小工具,能引发如此多共鸣,说明这已经不是技术宅的冷门焦虑,而是整个内容互联网的集体神经痛。
如果顺着这个趋势看下去,未来几年大概率会出现几条并行路线:一条是更强的反爬基础设施,靠 CDN、WAF 和 bot 管理系统提升拦截能力;一条是更明确的数据授权市场,内容方和模型方建立付费抓取或合作训练机制;还有一条,则是像 Miasma 这样带有“民间反击”色彩的工具持续繁殖。它们未必优雅,却足够真实。
这不是终局,但它像一声不太客气的提醒
Miasma 还有一个细节很有意思:项目欢迎社区贡献,但“主要由 AI 生成的贡献会被自动拒绝”。这句声明既像玩笑,也像态度表白。它把整件事的情绪浓度拉得很高:我写代码反 AI 爬虫,甚至连项目协作本身都想和“AI 生成”保持距离。
你可以觉得这种姿态激进,甚至有点戏剧化;也可以把它看成当下技术社区的一种应激反应。毕竟,生成式 AI 正在重塑软件、媒体、教育和创意产业,速度快得让很多人来不及建立新的共识。Miasma 这种项目之所以吸引眼球,不是因为它多么复杂,而是因为它说出了很多人不方便直接说出口的话:如果所谓创新建立在未经允许的大规模吞食之上,那被吞食的人迟早会开始反抗。
从记者视角看,我不认为 Miasma 会成为 AI 抓取时代的标准答案。它更像一枚带刺的小路标,告诉我们这场围绕训练数据的冲突,已经从法庭、董事会和媒体社论,蔓延到了每一个小网站的服务器配置文件里。谁能定义“合理抓取”、谁能从数据价值链中分到钱、谁又该为开放互联网的可持续性买单,这些问题不会因为一个陷阱服务器而消失。
但至少现在,互联网上终于有人把门口那块牌子从“请勿入内”换成了“欢迎进来,后果自负”。这事,确实挺2025年的。