大家都知道这次疫情的情况,各地都推迟了开学或上班。对我们来说,这只是一个深入学习的机会。今天,我将带领大家分析一下新型冠状病毒的爆发趋势,并将其作为一个数据分析课程的实践案例,从数据采集、数据清洗、数据可视化到输出数据结论,走一遍数据分析的过程完全地。此次使用的数据是约翰霍普金斯大学收集的全球病毒爆发数据。导入需要的包和数据首先进行数据清理:删除不需要的数据列从数据中我们可以看出,第一列相当于数字,第五列是最后一次数据更新的时间。这两列对我们的分析很重要,没有实际意义,所以先把这两列删掉:二:处理数据集中的空值我们来看一下数据的整体情况:我们发现只有province字段有null值,那我们来看看具体的null值:经过筛选,我们发现空缺是一些国外的省份,是数据采集过程中产生的,我们无从推断是什么,所以这里的空值我们选择不处理。第三:删除重复数据通过使用duplicate的方法,我们发现这个手工组织的dataset中没有重复数据,所以不需要进行去重。数据洞察先来看看截至数据完成时,全球有多少国家“倒下”:通过统计,只有32个国家有确诊患者,但细心的同学可能会发现,有“中国”和“中国大陆””在国家列表中,第二个表示“中国大陆”,实际上是中国,所以我们应该将“中国大陆”改为“中国”作为一个统一的口径。在实际工作过程中,跨部门的数据经常会出现这种情况,所以处理这种数据噪音也是数据分析师的日常工作之一。接下来,让我们看一下时间字段。时间字段的处理也是数据分析过程中必不可少的一步:这里的时间精确到“小时”。为了统计方便,我们改成精确到“天”“:接下来我们以国家为维度统计每个国家的确诊病例数:排名第一的肯定是中国,排名靠前的是基本都是离中国近的亚洲国家,在欧美国家中,排名第一的是德国,如果是真正的工作流程,德国这一点是一个“异常值”,必须深挖,这里我们只是举个例子.然后我们以时间为维度来分析每天感染人数的变化:从这里可以看出,感染人数在14天内从555人增加到24503人,增长速度还是非常快的.具体分析每天有多少人新确诊。这里需要用到diff()方法:数据可视化首先看每天的确诊病例数,基本上是指数增长的趋势,符合传染病的暴发规律。我们要做的,就是根据后续的数据,洞察拐点的到来。接下来我们来看看每日“死亡数”和“治愈数”的变化趋势。从这个数据来看,治愈人数的增长趋势已经超过了死亡人数。因此,从“最好”和“最差”两个方面来看,整体趋势还是在向好的方向发展,大家不必过于担心。综上所述,以上分析只是一个介绍。部分数据用于指导大家参与数据分析的实际过程。欢迎大家在留言区一起讨论学习。
