Cloudflare 推出「AI迷宫」，专门忽悠爬虫机器人！与其阻止爬虫机器人，不如主动把它们引进一个由AI生成的「废话迷宫」，让它们自我迷失。作者：韦斯·戴维斯（Wes Davis）2025年3月22日发布于《The Verge》全球最大的网络基础设施公司之一 Cloudflare 最近发布了一个叫做「AI迷宫」（AI

发布时间: 2025-03-24 00:30:17

1分

数据加载中

Cloudflare 推出「AI迷宫」，专门忽悠爬虫机器人！
与其阻止爬虫机器人，不如主动把它们引进一个由AI生成的「废话迷宫」，让它们自我迷失。
作者：韦斯·戴维斯（Wes Davis）
2025年3月22日发布于《The Verge》
全球最大的网络基础设施公司之一 Cloudflare 最近发布了一个叫做「AI迷宫」（AI
IT技术
( twitter.com )

Cloudflare 推出「AI迷宫」，专门忽悠爬虫机器人！
与其阻止爬虫机器人，不如主动把它们引进一个由AI生成的「废话迷宫」，让它们自我迷失。

作者：韦斯·戴维斯（Wes Davis）
2025年3月22日发布于《The Verge》

全球最大的网络基础设施公司之一 Cloudflare 最近发布了一个叫做「AI迷宫」（AI Labyrinth）的全新工具，专门用来对付那些未经允许、到处抓取网页内容的爬虫机器人（Web Scraper）。这些机器人往往是为了获取免费数据，拿去训练AI模型。

根据Cloudflare在官方博客上的介绍，当系统检测到有“异常的爬虫行为”时，这个免费的可选工具就会开始发挥作用。它会引导这些坏机器人走进一个充满链接的迷宫。这些链接指向的全都是AI自动生成的「虚假页面」，而这些页面里的内容都是毫无价值、用来迷惑机器人的废话。目的是：“让这些不怀好意的机器人变得越来越慢、越来越迷茫，最终耗尽他们自己的资源”。

一直以来，网站管理员通常使用一种叫做「robots.txt」的文本文件，它像是君子协议一样，告诉爬虫哪些页面能抓，哪些不能碰。然而，许多AI公司，甚至是知名公司，比如 Anthropic 和 Perplexity AI 都曾被指控故意忽视这种协议，随意抓取网页内容来训练自己的AI模型。

Cloudflare表示，每天大约会收到超过 500亿次来自网络爬虫的访问请求。虽然公司已经有了识别和拦截恶意爬虫的工具，但恶意爬虫总会迅速改变策略，形成一场永远无法停止的技术「军备竞赛」。

这一次，Cloudflare换了一种更聪明、更讽刺的方法：不再直接拦截机器人，而是把它们「带偏」。具体来说，「AI迷宫」会让机器人花费大量时间处理完全与目标网站无关的数据，陷入无止境的AI生成页面里。

Cloudflare还把这个功能称为“下一代的蜜罐陷阱”（Honeypot），因为人类访问者很容易分辨哪些链接是无用的，不会去点；但机器人会毫无顾忌地追逐每一个链接，越陷越深，无法自拔。通过这种方式，公司可以轻松记录机器人的行为模式，快速识别出新的爬虫类型，并不断优化自己的防御工具。

为了防止生成的虚假内容造成误导或传播假消息，Cloudflare强调这些生成的内容都是基于真实的科学事实，只是与目标网站完全无关，让机器人抓取的数据没有任何真正价值，也无法用作训练AI的有效数据。

目前，网站管理员只需前往自己Cloudflare管理后台中的“机器人管理”（Bot Management）界面，打开对应的开关，就能轻松使用这个工具。

Cloudflare表示，「AI迷宫」只是他们利用生成式AI来反制恶意爬虫的第一步。接下来他们的计划更加雄心勃勃：构建一整个由大量虚假页面组成的网络，让机器人彻底迷失其中，甚至难以察觉自己陷入了陷阱。科技媒体 Ars Technica 也指出，这种「AI迷宫」的理念类似于另一种名为 Nepenthes 的工具，据称Nepenthes能让机器人被困在虚假内容里长达“几个月”，消耗大量时间和资源。