如何识别假冒爬虫？

时间：2023-03-26 19:36:55 Python

我们在查看网站日志的时候，经常会遇到各种各样的爬虫。有些是普通的爬虫，比如：搜索引擎爬虫（百度搜索引擎爬虫、谷歌搜索引擎爬虫、Bing搜索引擎爬虫、YandexBot等），还有一些功能多样的爬虫，可以在这里查看：列表爬虫。然而，并非所有网络上的爬虫都是有益的，有些爬虫会学习真实爬虫的一些特征，以便尽可能地隐藏自己。还有一些假的爬虫，就是伪造那些搜索引擎的爬虫，会来抓你网站的数据。User-agent虽然看起来和搜索引擎一样，但是IP不属于搜索引擎。这时我们会根据需要准确识别这些假冒爬虫的IP地址。我们可以通过爬虫IP查询工具轻松识别假冒爬虫，例如：34.68.229.128Mozilla/5.0(Linux;Android6.0.1;Nexus5XBuild/MMB29P)AppleWebKit/537.36(KHTML,likeGecko)Chrome/85.0.4183.121MobileSafari/537.36(compatible;Googlebot/2.??1;+http://www.google.com/bot.html)这是我简化的日志记录，前面是IP地址，后面是User-agent访问crawler，通过User-agent我们可以看出他是一个谷歌搜索引擎蜘蛛。通过查询可以看出这是一个假冒的谷歌蜘蛛，截图如下：我们只需要输入假冒爬虫的IP地址，就可以看到爬虫的一些信息。这样一来，不管是真假李逵（爬虫类，真假），都逃不过我们的眼睛。同时，如果我们想看到更多的假爬虫，可以到这里：listcrawlersfakebot，整理了网上常见的假爬虫。总结通过介绍什么是假爬虫以及如何通过爬虫IP查询该工具，我们可以准确识别假爬虫。

上一篇：使用Python操作Excel时必学的3个库

下一篇：杀手xadmin开发在线教育网站03_xadmin快速搭建后台管理系统01_quickly通过djangoadmin搭建后台管理系统

如何识别假冒爬虫？相关文章