当前位置: 首页 > 后端技术 > Python

Python3网络爬虫开发实战读书笔记---第9章代理的使用

时间:2023-03-26 15:44:23 Python

本系列文章是在阅读《Python3网络爬虫开发实战》等网络资料学习爬虫过程中的一些笔记和心得,希望与大家分享。章节概述:如何通过代理绕过服务器的反爬虫措施章节结构:代理设置代理池维护付费代理ADSL拨号代理具体内容:代理设置先在网上购买代理,在某个端口创建代理软件P安装HTTP代理服务后。我们在使用urllib爬取数据的时候,创建一个ProxyHandler,设置http和https的代理地址(刚才的端口),然后在创建opener的时候传入ProxyHandler对象。如果代理需要用户名和密码,我们可以设置为username:password@127.0.0.1:P,如果是Socks5类型的代理,可以使用python的socks模块创建一个socks对象,并设置代理通过set_default_proxy。如果我们使用request模块,直接传入字典类型的参数proxies即可。如果在模拟浏览器时添加代理,可以通过webdriver.ChromeOptions对象的add_argument方法添加--proxy-server参数。然后将chrome_options作为参数传递给模拟的浏览器对象。代理池维护代理池:提前选择筛选可用的代理,存储为代理池,供后期随时抓取代理支持的数据使用。代理池基础模块:存储模块:存储抓取的代理,保证不重复,全部可用----Redis、SortedSet获取模块:抓取各大网站的代理,将可用的代理保存到存储模块检测模块:定期检测代理可用性。接口模块:对外接口,方便爬虫从代理池中随机获取代理。付费代理代理:www.xdaili.cn阿买云代理:www.abuyun.com具体代码实现:https://github.com/Python3Web...