一篇超级精彩的关于怎样构建一个通用的AI web 爬虫的文章:
https://t.co/w0tntxxkJo
文章写的特别好,从思路到几种解决方案,到调优,到最终的结果分析,是我最近看到的干货满满的文章,也怪不得原贴已经有 1K+ 的 likes。
简单说一下我理解的思路:
使用的工具:
* 我之前介绍过的爬虫工具:Crawlee https://t.co/3DQWuHZSO7
* OpenAI API
过程:
HTML + Text Search + Text Model
整个过程非常模拟人为的操作过程
1 先爬取整个 HTML
2 然后让 AI 生成一组相关的词汇,比如要找价格,那么AI 会生成一系列的词汇(pricing, fee, cost, prices ....)
3 根据这些词汇,搜索 HTML 结构,找到相关节点列表
4 使用 OpenAI 分析节点列表,找到最相关的节点
5 使用 AI 判断是否需要和这个节点交互(一般是点击操作)
6 循环这个过程,直到找到最终的结果
文章中还有非常多细节,务必要自己看看。
他最后举例演示了整个爬取过程,在文章的最下面,一步步的运行,非常精彩:
他给了系统美国的维基百科页面(150万个字符),然后问到:“I want to know total land area of the Mojave Desert.”
系统最后成功找到 Mojave Desert 的 Link,然后进行点击,最终再次找到了结果。
点击图片查看原图