当前位置: 首页 > 后端技术 > Python

Python3网络爬虫开发实战读书笔记---第8章验证码的识别

时间:2023-03-26 15:47:41 Python

本系列文章是我在阅读《Python3网络爬虫开发实战》等网络资料学习爬虫过程中的一些笔记和笔记。我希望与你分享我的经验。章节概述:验证码识别。章节结构:图形验证码识别滑动验证码识别触摸验证码识别微博网格验证码识别具体内容:图形验证码识别1.依赖技术:OCR技术2.验证方法:tesserocr库的image_to_text()方法,你也可以在验证之前使用convert()转换和处理图像。滑动验证码识别1.识别思路模拟浏览器动作完成验证。使用硒库。步骤分为三步,模拟点击验证按钮,识别滑动间隙位置,模拟拖动滑块。2、具体实现首先我们需要初始化模拟器,然后获取验证按钮(element_to_be_clickable),然后将获取到的两张图片进行比对,识别gap的位置,获取gap的位置。然后获取滑动对象(get_slider),最后我们模拟拖动,使用click_and_hold方法,到达刚找到的间隙位置时调用release方法。这里注意移动速度不能统一,以免被识别为程序。触摸验证码识别1、触摸验证的原理仍然是将图片转换成文字,然后模拟浏览器动作点击进行识别验证。由于文字和图像通常会多次扭曲和变形,因此很难识别它们。可以使用外部库,比如之前的ocr或者超鹰网站提供的一些识别库。微博宫验证码识别1.思想识别箭头方向识别,通过模板匹配识别。算法确定后,模拟浏览器动作滑动网格路径。