/1前言/前几天,小编发布了一份分步教程,教你用Python爬取西瓷代理数据(下),没时间追的朋友,可以戳进去看看。今天,小编就带大家分析一下网页的结构,提取网页的数据。具体步骤如下。/2首页分析与提取/首先??进入网站首页,如下图所示。对页面进行简单分析后,后面的1表示页码。经过分析发现每个页面都有100多条数据,然后网站底部的链接一共2700+页,所以总ip代理加起来就是27万多条数据,但后面的数据大多是多年前的数据。比如2012年,前5000条是上个月的,所以我决定抓取前100页。通过网站url分析,我们可以知道这100个页面的url是:规则显而易见。在程序中,我们使用一个for循环来完成这个操作:scrapy函数是爬取的主要逻辑,对应的代码是:通过这个方法,我们可以获取到每个页面的数据。/3网页元素分析与提取/接下来就是对页面中的元素进行分析,提取代理信息。如上图所示,我们的目的是分析代理商的地域分布。同时,我们在爬取过程中需要使用爬取到的数据来更新agent,所以需要以下字段的信息:IP地址、端口、服务器位置、类型。先建一个类来保存信息:这样每次爬取一条信息,只需要实例化一个ProxyBean类,非常方便。下一步是提取元素的过程。在这个过程中,我使用了正则表达式和BeautifulSoup库来提取关键数据。首先,通过分析网页,发现实际上所有的条目都放在了一个
