当前位置: 首页 > 后端技术 > Python

2020年美国新冠肺炎疫情数据分析

时间:2023-03-26 19:28:10 Python

US_2019COVID介绍2020年美国新冠肺炎疫情数据分析--截至2020年9月9日数据处理使用Spark分析数据数据可视化1.数据处理1.数据集分析数据包含以下内容具有特定含义的字段:日期日期;县区县;状态状态;cases截至该日期的确诊病例数;deaths截止日期的死亡人数将csv文件转为txt文件,方便spark读取生成RDD和DataFrame。转换代码见csv_txt.py2。上传文件到HDFS文件系统hdfsdfs-mkdir/tmphdfsdfs-putus-counties.txt/tmp2.使用Spark分析数据这里使用sparkSQL来分析数据,因为数据集是txt文件,需要从RDD转换得到DataFrame。从RDD到DataFrame的转换有两种方法。因为不知道数据结构,所以使用第二种编程方式来定义RDDschema。#生成标题字段=[StructField("date",DateType(),False),StructField("county",StringType(),False),StructField("state",StringType(),False),StructField("cases",IntegerType(),False),StructField("deaths",IntegerType(),False)]schema=StructType(fields)#recordinthegeneratedtablerdd0=spark.sparkContext.textFile("/tmp/us-counties.txt")rdd1=rdd0.map(lambdax:x.split("\t")).map(lambdap:Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))#拼接schemaUsCovid=spark.createDataFrame(rdd1,schema)#注册临时表schemaUsCovid.createOrReplaceTempView("usInfo")其中主要有8个指标,分别是:计算每天累计确诊病例数和死亡病例数计算新增确诊病例数和死亡病例数与昨日相比计算美国各州截至9月9日累计确诊病例数和死亡病例数10个州的统计数据截至9月美国确诊病例最多9截至9月9日美国死亡人数最多的10个州统计截至9月9日美国确诊病例最少的10个州统计截至9月9日美国死亡人数最少的10个州统计美国截至9月9日9月9日全美及各州病死率结果存储在本地文件系统hdfsdfs-get/tmp/us/result1.json./result/result1和其余结果文件类似。有关完整代码,请参阅dataAnalyst.py。3.数据可视化使用python第三方库pyecharts作为可视化工具。具体代码见show.py。确诊病例和死亡病例3.统计截至9月9日美国各州累计确诊病例和死亡病例4.统计美国确诊病例最多的10个州9月9日统计5.美国截至9月9日死亡人数最多的10个州统计6.美国截至9月9日确诊病例最少的10个州统计7.美国确诊病例最少的10个州统计截至9月9日美国死亡人数。8.截至9月9日美国及各州死亡率代码统计。地址:https://gitee.com/yxuan-cs/us...参考:http://dblab.xmu.edu.cn/blog/...