/1拿西瓷代理数据(下),如果没有赶车的朋友,可以戳进去看看。今天小编就将爬取到的数据进行可视化操作。数据可视化主要使用pyecharts库进行操作。具体步骤如下。本次爬虫的目的主要是分析代理商在全国各个城市的分布情况。小编的想法是统计所有城市的代理商数量,然后通过可视化技术构建代理商热度分布图。总体思路是利用pyecharts构建热力分布图,直观展示各个城市代理的分布情况。/2代理分布统计/Pyecharts在绘制热力图时需要提供城市名,但实际上从网上爬取的位置数据并不是标准的城市名:这时候我们需要处理这些数据,从位置提取城市名称,例如:湖北十堰需要提取十堰。为了达到这个目的,我使用开源的**cpca**库进行提取。本库主要采用结巴分词处理数据,然后比对数据库提取省市县。一个直观的例子如下:通过这种方式,我们可以提取城市名称,然后在代码中实现如下:提取城市数据后,我们需要统计该城市的代理人数.总体思路是建立一个列表。然后循环遍历抓取的城市,如果发现不在列表中的城市,将该城市添加到列表中,并将代理设置为1,如果有该城市,则将数字加1。这样一来,各个城市的代理人分布就统计出来了。接下来就是使用pyecharts进行热图绘制。/3代理商热力图绘制/有了代理商在各个城市的分布情况,接下来就是绘制热力图了。使用pyecharts加载我们之前统计过的列表。代码如下:程序执行后,会在当前页面显示生成一个名为NationalAgentDistribution.html的网页,用chrome或firefox打开该网页可以看到热度分布结果,如图下面,颜色越深,代理数量越多。全国代理商分布图数据视图统计显示,代理商主要分布在东部地区,东部地区主要集中在广州、江苏、浙江、山东,而西部地区几乎没有。这也从另一个角度说明了我国互联网硬件设施的发展。很不平衡,大部分资源都集中在东部地区。/4总结/本任务主要是爬取代理网站的代理数据,对代理在各个城市的分布情况进行统计分析,并利用可视化技术绘制代理分布热图。主要做了以下工作:学习使用pyecharts库进行数据可视化;学习使用cpca库进行中文数据分词。得出以下结论:全国网络代理主要分布在东部地区,东部地区集中在广州、江浙鲁、山东,而西部地区几乎没有。这也从一个角度说明了我国互联网硬件设施的发展。很不平衡,大部分资源都集中在东部地区。Python爬取是一项综合技能。在抓取网站的过程中可以学到很多知识。我希望你能多研究一下。如果有需要代码的小伙伴,可以在后台回复“代理”字样获取。--------------------完--------------------**上一篇精彩文章推荐:Hands-onPython教你如何找到隐藏的wifi。手把手教你用Python制作一款可视化的“剪刀石头布”游戏。使用Python网络爬虫带你爬取国内名牌大学附近的酒店点评。
