3行代码教你检测爬虫，实现实时的爬虫封禁！

3行代码教你检测爬虫，实现实时的爬虫封禁！ 2022-11-12 825

是否担心别人将你的博客文章全部爬下来？

是否担心高频率爬虫导致网站瘫痪？

别担心，现在有一个Python写的神器——crawlerdetect，帮助你检测爬虫，保障网站的正常运转。

1.准备

Windows环境下打开Cmd(开始—运行—CMD)，苹果系统环境下请打开Terminal(command+空格输入Terminal)，准备开始输入命令安装依赖。

在终端输入以下命令安装我们所需要的依赖模块:

pip install crawlerdetect

看到 Successfully installed xxx 则说明安装成功。

2.使用方法

它可以通过user-agent、headers等请求头识别爬虫或机器人。

因此，你可以传递两种参数。第一种，使用user-agent检测机器人：

from crawlerdetect import CrawlerDetect
crawler_detect = CrawlerDetect(user_agent=Mozilla/5.0 (iPhone; CPU iPhone OS 7_1 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile (compatible; Yahoo Ad monitoring; https://help.yahoo.com/kb/yahoo-ad-monitoring-SLN24857.html))
crawler_detect.isCrawler() # 如果是机器人，这条语句返回True

第二种识别方式会用上全部headers参数，这种方式比单纯用user-agent精准，因为它判断的依据更加全面。

from crawlerdetect import CrawlerDetect
crawler_detect = CrawlerDetect(headers={DOCUMENT_ROOT: /home/test/public_html, GATEWAY_INTERFACE: CGI/1.1, HTTP_ACCEPT: */*, HTTP_ACCEPT_ENCODING: gzip, deflate, HTTP_CACHE_CONTROL: no-cache, HTTP_CONNECTION: Keep-Alive, HTTP_FROM: googlebot(at)googlebot.com, HTTP_HOST: www.test.com, HTTP_PRAGMA: no-cache, HTTP_USER_AGENT: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36, PATH: /bin:/usr/bin, QUERY_STRING: order=closingDate, REDIRECT_STATUS: 200, REMOTE_ADDR: 127.0.0.1, REMOTE_PORT: 3360, REQUEST_METHOD: GET, REQUEST_URI: /?test=testing, SCRIPT_FILENAME: /home/test/public_html/index.php, SCRIPT_NAME: /index.php, SERVER_ADDR: 127.0.0.1, SERVER_ADMIN: webmaster@test.com, SERVER_NAME: www.test.com, SERVER_PORT: 80, SERVER_PROTOCOL: HTTP/1.1, SERVER_SIGNATURE: , SERVER_SOFTWARE: Apache, UNIQUE_ID: Vx6MENRxerBUSDEQgFLAAAAAS, PHP_SELF: /index.php, REQUEST_TIME_FLOAT: 1461619728.0705, REQUEST_TIME: 1461619728})
crawler_detect.isCrawler() # 如果是机器人，这条语句返回True

你还可以识别相应爬虫的名字（如果有的话），通过这种方式，你能给一些著名的爬虫（如baiduspider、googlebot）添加白名单，不进行拦截。

from crawlerdetect import CrawlerDetect
crawler_detect = CrawlerDetect()
crawler_detect.isCrawler(Mozilla/5.0 (compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)) # 如果是机器人，这条语句返回True
crawler_detect.getMatches() # Sosospider
新手学习，Python 教程/工具/方法/解疑＋V：itz992

有了这个工具，我们就可以实现实时的爬虫封禁：

首先，你要实时监控网站上的http请求，检测其对应的headers.

其次，如果识别到该请求是机器人（爬虫）发出的，就可将其IP记录下来。

最后，将IP加入到Nginx或Apache的动态黑名单中，实现实时的爬虫封禁。

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/196819.html

上一篇： .gitignore 文件不生效问题 & 解决方法

下一篇： .gitignore与.git/info/exclude区别

3行代码教你检测爬虫，实现实时的爬虫封禁！

1.准备

2.使用方法

3行代码教你检测爬虫，实现实时的爬虫封禁！ 相关内容

聚合标签

3行代码教你检测爬虫，实现实时的爬虫封禁！相关内容