本文转载自微信公众号《智斌的python笔记》,作者智斌。转载本文请联系志斌python笔记公众号。大家好,我是志斌~今天志斌给大家分享一下如何破译反爬虫中的文字混淆和图片伪装。显示在页面上。这种混合展示方式不会影响用户的正常阅读,但可以限制爬虫获取这些内容。如下图所示:02原理这种反爬虫的原理很简单,就是把前端页面中本该是普通文字的部分内容用图片替换掉,从而达到“误导”的影响。03破解因为这个反爬虫的方法是替换内容,所以我们绕不过去,只能破解得到我们想要的内容。破解方法也比较简单,我们只需要下载图片然后提取里面的内容即可。提取图片中文字的方法有很多种,我是用百度AI提取的。代码如下:fromaipimportAipOcrAPP_ID='你的APPID'API_KEY='APIKey'SECRET_KEY='你的SecretKey'client=AipOcr(APP_ID,API_KEY,SECRET_KEY)withopen(img,'rb')asf:image=f.read()word=client.basicGeneral(image)在上一篇文章中分享了一种使用百度API提取图片中内容的方法。有兴趣的读者可以看看这篇文章,教你如何用20行代码批量提取图片中的文字。04总结1、图片伪装反爬虫的本质是用图片替换原来的内容,使爬虫程序无法正常获取。我们只需要识别并提取里面的内容就可以破解这个反爬虫。2、破解这种反爬虫不难,但是代码写起来可能比较麻烦。读者可以先把流程图写好再写。3、目前这种反爬虫的方法已经被各种大型网站应用,所以大家要掌握这种反爬虫的绕过方法。4、本文旨在学习和研究图像伪装反爬虫,请勿用于非法用途。
