当前位置: 首页 > 科技观察

不用Python能分析吗?职业生涯以来,写过最痛的数据分析

时间:2023-03-13 11:42:40 科技观察

这篇文章是为了纪念那些英雄,也给大家敲响警钟。或许我们的随意、疏忽和疏忽都会在其背后付出惨痛的代价。日前,四川凉山这个耳熟能详的名字再次登上热搜:那些英雄永远地离开了我们。悲痛之中,我开始思考:为什么会经常出现这种情况?一、数据来源本数据来源于消防网等网站的公开数据。收集到的数据整理如下:2.数据清洗收集到的数据中还有很多脏数据,需要清洗处理,才能成为我们数据分析的源数据。在原有的数据分析模式下,如果我要分析一个数据,需要把所有的数据都交给IT处理,这需要有时间安排,一般是3-5天,如果有数据需要更换中间,需要更长的时间。当我得到数据时,我也应该被解雇了。因此,迫切需要一种可以让业务人员自行分析,并且还自带ETL的工具。这里我推荐FineBI。作为企业级大数据分析工具,个人版永久免费,对个人用户来说是福利。.让我们谈谈它的优点。5000W以上的海量数据,数据查询时间较长,但如果使用FineBI的OLAP分析预处理,提前进行数据建模,3秒即可展现,分析效率会大大提升。这里我先将数据导入FineBI,创建自助数据集,选择过滤项,处理空值、离群值等脏数据。三、数据处理1、计算四川省山火数据占全国的比例。为了更好地比较四川省山火的全国情况,我将统计山火起数、受灾面积、伤亡人数、特大火灾起数。处理时,新增四个列,分别计算各指标的占比,数值格式选择百分比。2、计算出四川灭火出动人数与伤亡人数的比较。该指标主要是反映四川省山火扑救难度。一般山火出动人员较少,伤亡较少。如果这个指标高于全国平均水平,那么说明四川的山火扑救难度更大。同样新增一列,添加比例公式,如下。3、分组总结森林火灾事故的原因。因为网站上的森林火灾事故原因很多,主要分为生产性火灾、非生产性火灾和其他不明火灾。这一步主要是对事故进行分类汇总。选择“分组汇总”,按照分组类别排序,如下:4.数据可视化数据处理完成后,接下来就是数据可视化了,因为这次的数据比较简单,没有很复杂的逻辑结构,所以直接点击创建组件。选择合适的图表类型,然后将相应的指标拖到坐标轴上,最后经过一些美化就基本完成了。制作全国和四川省的山火数据地图可能比较费时间。好在FineBI可以直接匹配地理纬度。那么,为了通过点击四川省来显示该省份的数据,需要添加一个钻取。自动匹配四川省对应的地理纬度,实现地图钻取。这一步可能比较难理解。有兴趣的可以去官网搜索教程。按照教程来做还是很简单的。最后,本次分析得到的可视化结果:1.2019年全国森林火灾分布图由2019年全国森林火灾分布图分析得出。更令人意外的是,森林火灾最严重的地区竟然不是四川,云南等地。而是集中在湖广和四川,四川大概排在第二位。此外,内蒙古、陕西和安徽也是森林火灾高发省份。不过,钻研四川省森林火灾分布图后会发现,火灾多发区集中在德阳、遂宁、乐山、内江四市。泸州、广元、成都等地经常发生森林火灾。这些城市应该是重点关注森林火灾的地方。2、历年四川省与全国森林火灾情况对比图首先是四川省森林火灾起数占全国的比例和四川省森林火灾伤亡比例的组合图到全国号码。直方图表示森林火灾的比例。折线图表示伤亡百分比。从图中可以看出,2011年之前,四川省森林火灾和人员伤亡的比例并不高,占比不到10%。最高占全国50%以上,森林火灾的比例基本都在11%以上,居高不下!启芳特意查了一下资料。2012年,四川森林火灾真的多。1.27泸州森林大火,5.2凉山大火等等,当时可以说是举国震惊!3、四川历年获救人数和伤亡人数对比图。伤亡率,如果直方图高于折线图,说明当年四川省森林火灾扑救难度大,伤亡人数多。可以看出,四川省的获救人数与伤亡人数之比基本上低于全国平均水平,但还是可以看出2012年是个例外。四川远超全国平均水平;此外,2015年也出现持平现象。4、历年森林火灾事故原因分析从事故原因可以看出,森林火灾的主要原因是烧荒和烧炭,过度燃烧造成了大面积无人监管区,许多地方缺乏必要的监管和指导,从而引发了多起森林火灾。其次,我们还可以看到,上坟烧纸、野外抽烟也占了很大的比重。这是我们可以尝试尽可能减少的事情。我们提倡文明上坟,不在野外抽烟。只有不留下火灾隐患,才能让我们的消防员、护林员等不那么危险!以上就是整个分析过程。谨以此文纪念在这场救火中牺牲的英雄们!