如何判断一个IP是爬虫

时间：2023-03-25 21:42:14 Python

从IP判断一个爬虫如果查看服务器日志，看到密密麻麻的IP地址，一眼就能看出哪些IP是爬虫，哪些IP是普通爬虫，像这样：日志，我们不仅要区分真实的爬虫IP，还要区分假的爬虫IP，这并不容易。如果我们查看服务器日志，可以通过User-agent大致判断是爬虫还是普通用户，例如：Mozilla/5.0(compatible;SemrushBot/7~bl;+http://www.semrush.com/bot.html)这是SemrushBot的爬虫Mozilla/5.0(compatible;bingbot/2.??0;+http://www.bing.com/bingbot.htm)这是bing搜索引擎爬虫Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/90.0.4430.97MobileSafari/537.36(compatible;Googlebot/2.??1;+http://www.google.com/bot.html)This是谷歌搜索引擎爬虫...这些是爬虫的用户代理。任何开发过爬虫的人都知道用户代理可以被伪造。仅通过User-agent来判断爬虫是不准确的。我们要通过IP地址判断是否是爬虫。66.249.71.19--[19/May/2021:06:25:52+0800]"GET/history/16521060410/2019HTTP/1.1"302257"-""Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/90.0.4430.97MobileSafari/537.36(compatible;Googlebot/2.??1;+http://www.google.com/bot.html)”以上日志，第一个是爬虫的IP，你确定是谷歌搜索引擎的爬虫（蜘蛛）的IP吗？我们可以通过IP回查，可以看到Hostname是：crawl-66-249-71-19.googlebot.comping得到的这个Hostname的IP地址是：66.249.71.19这是爬虫（spider)Google搜索引擎的IP当然可以。但是对于一些不确定的，我们也可以通过IP查询——爬虫识别这个网站，查询爬虫的具体信息。具体操作这里不再赘述。可以直接输入IP查询爬虫的详细信息。同时也可以参考这篇文章：爬虫识别IP，有具体的使用方法。通过以上步骤，应该很容易通过IP判断是否是爬虫。

上一篇：Python语言基础之变量和常量

下一篇：添加监控文件目录并发送到rabbitmq案例1

如何判断一个IP是爬虫相关文章