当前位置: 首页 > 后端技术 > Python

如何识别假冒爬虫?

时间:2023-03-26 19:36:55 Python

我们在查看网站日志的时候,经常会遇到各种各样的爬虫。有些是普通的爬虫,比如:搜索引擎爬虫(百度搜索引擎爬虫、谷歌搜索引擎爬虫、Bing搜索引擎爬虫、YandexBot等),还有一些功能多样的爬虫,可以在这里查看:列表爬虫。然而,并非所有网络上的爬虫都是有益的,有些爬虫会学习真实爬虫的一些特征,以便尽可能地隐藏自己。还有一些假的爬虫,就是伪造那些搜索引擎的爬虫,会来抓你网站的数据。User-agent虽然看起来和搜索引擎一样,但是IP不属于搜索引擎。这时我们会根据需要准确识别这些假冒爬虫的IP地址。我们可以通过爬虫IP查询工具轻松识别假冒爬虫,例如:34.68.229.128Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/85.0.4183.121MobileSafari/537.36(compatible;Googlebot/2.??1;+http://www.google.com/bot.html)这是我简化的日志记录,前面是IP地址,后面是User-agent访问crawler,通过User-agent我们可以看出他是一个谷歌搜索引擎蜘蛛。通过查询可以看出这是一个假冒的谷歌蜘蛛,截图如下:我们只需要输入假冒爬虫的IP地址,就可以看到爬虫的一些信息。这样一来,不管是真假李逵(爬虫类,真假),都逃不过我们的眼睛。同时,如果我们想看到更多的假爬虫,可以到这里:listcrawlersfakebot,整理了网上常见的假爬虫。总结通过介绍什么是假爬虫以及如何通过爬虫IP查询该工具,我们可以准确识别假爬虫。