从IP判断一个爬虫如果查看服务器日志,看到密密麻麻的IP地址,一眼就能看出哪些IP是爬虫,哪些IP是普通爬虫,像这样:日志,我们不仅要区分真实的爬虫IP,还要区分假的爬虫IP,这并不容易。如果我们查看服务器日志,可以通过User-agent大致判断是爬虫还是普通用户,例如:Mozilla/5.0(compatible;SemrushBot/7~bl;+http://www.semrush.com/bot.html)这是SemrushBot的爬虫Mozilla/5.0(compatible;bingbot/2.??0;+http://www.bing.com/bingbot.htm)这是bing搜索引擎爬虫Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/90.0.4430.97MobileSafari/537.36(compatible;Googlebot/2.??1;+http://www.google.com/bot.html)This是谷歌搜索引擎爬虫...这些是爬虫的用户代理。任何开发过爬虫的人都知道用户代理可以被伪造。仅通过User-agent来判断爬虫是不准确的。我们要通过IP地址判断是否是爬虫。66.249.71.19--[19/May/2021:06:25:52+0800]"GET/history/16521060410/2019HTTP/1.1"302257"-""Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/90.0.4430.97MobileSafari/537.36(compatible;Googlebot/2.??1;+http://www.google.com/bot.html)”以上日志,第一个是爬虫的IP,你确定是谷歌搜索引擎的爬虫(蜘蛛)的IP吗?我们可以通过IP回查,可以看到Hostname是:crawl-66-249-71-19.googlebot.comping得到的这个Hostname的IP地址是:66.249.71.19这是爬虫(spider)Google搜索引擎的IP当然可以。但是对于一些不确定的,我们也可以通过IP查询——爬虫识别这个网站,查询爬虫的具体信息。具体操作这里不再赘述。可以直接输入IP查询爬虫的详细信息。同时也可以参考这篇文章:爬虫识别IP,有具体的使用方法。通过以上步骤,应该很容易通过IP判断是否是爬虫。
