通过这个工具,让我找到了它底层使用的宝藏爬虫工具 - Crawlee
https://t.co/3DQWuHZSO7
它的技术栈非常新,功能很强大,如果你想在 2023年做一个爬虫或者浏览器行为模拟工具,这个应该是最棒的,有这些特性:
* 两种模式,HTTP 和 Headless 模式,Headless 模式是基于真实的浏览器模拟(基于 Puppeteer and Playwright),爬取 JS 渲染的内容也不在话下。并且添加了特殊的 anti-blocking 以及 human-like fingerprints 机制,让你的爬虫被封的概率大大降低了。
* 根据你的电脑资源自动切换并发的数量。
* 内置 Cheerio 和 JSDOM ,分析 DOM 结构也很方便。
我简单用了一下,非常方便,强烈推荐给大家。
Stars:9.6K
点击图片查看原图