作为爬虫工作者,我们使用代理ip来解决日常数据采集中的问题。很多时候我们使用的代理都是通过api方式获取代理然后使用。这种方式的好处是我们可以自己管理ippool。最近很多厂商提供了一种新的模式,隧道代理。这种隧道代理有一个很特别的特点就是客户端感觉不到代理的存在。从客户端的角度来看,它直接与要请求的资源服务器进行通信。对我们很多新手来说是一个很好的方式,不需要花很多时间去跟代理纠结。隧道HTTP的使用涉及IP的两种模式,即Proxy-Tunnel独立切换IP。该模式适用于一些需要登录、Cookie缓存处理等爬虫需要精确控制IP切换时机的业务。爬虫可以设置HTTP头Proxy-Tunnel:随机数,当随机数相同时,访问目标网站的代理IP相同。例如:需要登录和获取数据,两个请求在一个IP下,只需为这组请求设置相同的Proxy-Tunnel即可,例如:Proxy-Tunnel:12345,这组请求使用同一个代理代理有效期内的IP。但需要注意的是,不同的请求组可以同时设置不同的Proxy-Tunnel:随机数,并发完成数据爬取。
