Cloudflare 推出「AI迷宫」,专门忽悠爬虫机器人!
与其阻止爬虫机器人,不如主动把它们引进一个由AI生成的「废话迷宫」,让它们自我迷失。
作者:韦斯·戴维斯(Wes Davis)
2025年3月22日发布于《The Verge》
全球最大的网络基础设施公司之一 Cloudflare 最近发布了一个叫做 「AI迷宫」(AI Labyrinth) 的全新工具,专门用来对付那些未经允许、到处抓取网页内容的爬虫机器人(Web Scraper)。这些机器人往往是为了获取免费数据,拿去训练AI模型。
根据Cloudflare在官方博客上的介绍,当系统检测到有“异常的爬虫行为”时,这个免费的可选工具就会开始发挥作用。它会引导这些坏机器人走进一个充满链接的迷宫。这些链接指向的全都是AI自动生成的「虚假页面」,而这些页面里的内容都是毫无价值、用来迷惑机器人的废话。目的是:“让这些不怀好意的机器人变得越来越慢、越来越迷茫,最终耗尽他们自己的资源”。
一直以来,网站管理员通常使用一种叫做「robots.txt」的文本文件,它像是君子协议一样,告诉爬虫哪些页面能抓,哪些不能碰。然而,许多AI公司,甚至是知名公司,比如 Anthropic 和 Perplexity AI 都曾被指控故意忽视这种协议,随意抓取网页内容来训练自己的AI模型。
Cloudflare表示,每天大约会收到超过 500亿次 来自网络爬虫的访问请求。虽然公司已经有了识别和拦截恶意爬虫的工具,但恶意爬虫总会迅速改变策略,形成一场永远无法停止的技术「军备竞赛」。
这一次,Cloudflare换了一种更聪明、更讽刺的方法:不再直接拦截机器人,而是把它们「带偏」。具体来说,「AI迷宫」会让机器人花费大量时间处理完全与目标网站无关的数据,陷入无止境的AI生成页面里。
Cloudflare还把这个功能称为“下一代的蜜罐陷阱”(Honeypot),因为人类访问者很容易分辨哪些链接是无用的,不会去点;但机器人会毫无顾忌地追逐每一个链接,越陷越深,无法自拔。通过这种方式,公司可以轻松记录机器人的行为模式,快速识别出新的爬虫类型,并不断优化自己的防御工具。
为了防止生成的虚假内容造成误导或传播假消息,Cloudflare强调这些生成的内容都是基于真实的科学事实,只是与目标网站完全无关,让机器人抓取的数据没有任何真正价值,也无法用作训练AI的有效数据。
目前,网站管理员只需前往自己Cloudflare管理后台中的“机器人管理”(Bot Management)界面,打开对应的开关,就能轻松使用这个工具。
Cloudflare表示,「AI迷宫」只是他们利用生成式AI来反制恶意爬虫的第一步。接下来他们的计划更加雄心勃勃:构建一整个由大量虚假页面组成的网络,让机器人彻底迷失其中,甚至难以察觉自己陷入了陷阱。科技媒体 Ars Technica 也指出,这种「AI迷宫」的理念类似于另一种名为 Nepenthes 的工具,据称Nepenthes能让机器人被困在虚假内容里长达“几个月”,消耗大量时间和资源。
点击图片查看原图