当前位置: 首页 > 后端技术 > Python

日常填坑-IP代理池工具

时间:2023-03-26 18:33:37 Python

ProxyPool是一个高可用、易部署、长期稳定、易扩展的异步认证IP代理池。项目地址Hogan-TR/ProxyPool特点高可用:改变传统代理池只处理单一数据库数据的设计,建立混沌+稳定两个数据池,用于原始数据清洗,提供稳定的IP代理调用接口,提高健壮性,从而有效避免因新的未知数据进入数据库而导致IP代理质量下降和网页请求失败的可能性。长而稳定的学习代价:自由制定分级打分机制,在config文件中设置混沌池和稳定池的初始分数、最低允许分数、最大可控分数、迁移条件,保证学习质量代理同时有效控制计算资源占用,易扩展:针对互联网公共代理资源获取规则的时效性,可以使用爬虫模块中提供的请求函数,自行编写针对特定网站的爬虫规则,返回生成器代理数据运行Docker部署Docker并安装docker-compose安装(推荐pip安装)下载当前仓库代码到本地gitclonehttps://github.com/Hogan-TR/ProxyPool.git中修改配置。/proxypool/config.pyREDIS_HOST="127.0.0.1"#将REDIS_HOST的内容替换为本机的内网ip#其他配置可以修改如所须。修改docker-compose.yml中的配置,修改main中ports的端口映射,从而改变api的本地调用接口,默认5000端执行docker-composeup命令,根据部署启动代理池本地环境(只支持类Unix系统)准备:Python3+Redis环境下载当前仓库代码到本地gitclonehttps://github.com/Hogan-TR/ProxyPool.git创建虚拟环境,安装依赖oncdProxyPoolpython3-mvenvvenvsource./venv/bin/activatepipinstall-rrequirements.txt根据系统Redis配置修改。./proxypool/config.py中Redis相关参数REDIS_HOST,REDIS_PORT,REDIS_PASSWORD执行sudopythonrun.py命令启动代理池注意:代理池首次启动后需要十分钟左右的时间进行数据的抓取和清理,然后才能开始提供高质量的代理功能。实现图写在最后:欢迎大家Star测试,提issue