Python3网络爬虫开发实战读书笔记---第9章代理的使用

时间：2023-03-26 15:44:23 Python

本系列文章是在阅读《Python3网络爬虫开发实战》等网络资料学习爬虫过程中的一些笔记和心得，希望与大家分享。章节概述：如何通过代理绕过服务器的反爬虫措施章节结构：代理设置代理池维护付费代理ADSL拨号代理具体内容：代理设置先在网上购买代理，在某个端口创建代理软件P安装HTTP代理服务后。我们在使用urllib爬取数据的时候，创建一个ProxyHandler，设置http和https的代理地址（刚才的端口），然后在创建opener的时候传入ProxyHandler对象。如果代理需要用户名和密码，我们可以设置为username:password@127.0.0.1:P，如果是Socks5类型的代理，可以使用python的socks模块创建一个socks对象，并设置代理通过set_default_proxy。如果我们使用request模块，直接传入字典类型的参数proxies即可。如果在模拟浏览器时添加代理，可以通过webdriver.ChromeOptions对象的add_argument方法添加--proxy-server参数。然后将chrome_options作为参数传递给模拟的浏览器对象。代理池维护代理池：提前选择筛选可用的代理，存储为代理池，供后期随时抓取代理支持的数据使用。代理池基础模块：存储模块：存储抓取的代理，保证不重复，全部可用----Redis、SortedSet获取模块：抓取各大网站的代理，将可用的代理保存到存储模块检测模块：定期检测代理可用性。接口模块：对外接口，方便爬虫从代理池中随机获取代理。付费代理代理：www.xdaili.cn阿买云代理：www.abuyun.com具体代码实现：https://github.com/Python3Web...

上一篇：如何创建python虚拟环境

下一篇：爬虫：动态网页的弹出数据（文字+图片）

Python3网络爬虫开发实战读书笔记---第9章代理的使用相关文章