图片伪装反爬虫原理及破解方法

时间：2023-03-20 18:07:57 科技观察

本文转载自微信公众号《智斌的python笔记》，作者智斌。转载本文请联系志斌python笔记公众号。大家好，我是志斌~今天志斌给大家分享一下如何破译反爬虫中的文字混淆和图片伪装。显示在页面上。这种混合展示方式不会影响用户的正常阅读，但可以限制爬虫获取这些内容。如下图所示：02原理这种反爬虫的原理很简单，就是把前端页面中本该是普通文字的部分内容用图片替换掉，从而达到“误导”的影响。03破解因为这个反爬虫的方法是替换内容，所以我们绕不过去，只能破解得到我们想要的内容。破解方法也比较简单，我们只需要下载图片然后提取里面的内容即可。提取图片中文字的方法有很多种，我是用百度AI提取的。代码如下：fromaipimportAipOcrAPP_ID='你的APPID'API_KEY='APIKey'SECRET_KEY='你的SecretKey'client=AipOcr(APP_ID,API_KEY,SECRET_KEY)withopen(img,'rb')asf:image=f.read()word=client.basicGeneral(image)在上一篇文章中分享了一种使用百度API提取图片中内容的方法。有兴趣的读者可以看看这篇文章，教你如何用20行代码批量提取图片中的文字。04总结1、图片伪装反爬虫的本质是用图片替换原来的内容，使爬虫程序无法正常获取。我们只需要识别并提取里面的内容就可以破解这个反爬虫。2、破解这种反爬虫不难，但是代码写起来可能比较麻烦。读者可以先把流程图写好再写。3、目前这种反爬虫的方法已经被各种大型网站应用，所以大家要掌握这种反爬虫的绕过方法。4、本文旨在学习和研究图像伪装反爬虫，请勿用于非法用途。

上一篇：给Python新手的一些编码建议

下一篇：让爸爸妈妈告别安全顾虑，区块链构建母婴行业新生态

图片伪装反爬虫原理及破解方法相关文章