简介:今天,首席执行官指出,与您分享有关Python中缺少数据的相关内容的数量。如果您能解决您现在面临的问题,请不要忘记注意此网站。让我们现在开始!
1.对数据df.sort_values()排序
#read数据
titanic_survival = pd.read_csv(r“ C:userspythonwandata_minepython_pandas itanic_train.csv”)
#use sort_values()函数以对指定的列进行排序,对默认的上升顺序进行排序,andrace = true表示对titanic_survival.sort_values(((“ age”))
2.丢失价值判断和统计数据pandas.isnull(),pandas.isnull
值统计方法1:df.isnull()。sum():
#当未指定特定列时,计算整个DF的缺失值数量
titanic_survival ['age']。一片空白 ()。sum()
通过统计,通过LEN()函数统计数字遗漏了该值
3.缺乏价值处理
品尝丢失值的损失可以分为两类:删除价值和缺失值的损失。缺乏有价值的插值分为以下内容:
9月/中位数/号码插值
使用固定值(用常数替换缺失的属性)
最近的邻居(找到最接近记录中缺失样本的样本的属性插值)
回归方法(对于具有缺失值的变量,基于现有数据和与之相关的其他变量建立拟合模型,以预测缺失值的丢失)
插入方法(使用已知点来建立合适的插值函数f(x),未知值是通过相应点XI获得的)
下面,我们主要讨论删除删除的操作,学习一些大熊猫缺失值和删除操作。
1)df.dropna(),丢弃包含任何缺失值的行
#(轴= 0)轴= 0表示删除行,轴= 1表示删除列
dropall = titanic_survival.dropna()()()()
删除具有任何空值的行
2)df.dropna()函数删除列中包含一个空值的行
现在,在此数据中,年龄,小屋和登陆已经丢失了。如果我们直接使用df.dropna(),我们将在这三列中删除所有具有空值的行,但是我们希望只删除年龄列中的空值。DATA,我该怎么办?
直接使用df.dropna(sub set = ['colorn_list'])
drop_age_null = titanic_survival.dropna(sub set = [“ age”])
删除指定列中包含缺失值的行
熊猫自定义功能
统计数据中的每一列是否具有空置值:
data.isnull()。任何 ()
统计数据中的每一列的数量:
data.isnull()。任何 ()。sum()
但是有时候,很明显,有空值但不能计算。
最近,我遇到的数据,空值的填充为null。在使用上述功能之前,需要对此进行转换。
data = data.replace('null',np.nan)
然后,您继续使用data.isnull()。任何(),ata.isnull()。任何 ()。sum()很好。
如果这样做,您的问题尚未解决。检查您的缺乏价值被NP.Nan.取代
另一种方法:
np.any(np.isnan(数据))
np.All(np.Iffinite(数据))
最近,我了解了Python数据分析的一些基本知识。有Numpy,Pandas,Matplotlib等,并找到了一个带有药物数据分析的小型项目来练习。
数据分析的步骤通常可以分为6:
1.澄清分析的目的
2.数据准备
3,数据清洁
4.数据分析
5,数据可视化
6.分析报告
数据分析的目的:
通过分析Chaoyang地区医院的药物销售数据,了解Chaoyang医院患者的平均每月消费,平均每月消费量,客户单位价格和消费趋势以及需求最高的药物。
数据准备
数据存在于Excel中。您可以使用Pandas的Excel文件读取该功能,以将数据读取到内存中。在这里,您需要注意文件名的名称和Excel中的表页面。阅读数据后,您可以预览并查看数据上的一些基本信息。
可以通过数据的基本信息看到行总数为6578,但是社会保险卡号仅为6576,其他行只有6577行,表明有一个缺少的值,这将是在数据清洁中处理。
数据清洁
数据清洁过程通常包括:选择子集,命名名称,缺乏数据处理,数据类型转换,数据排序和异常值处理。
(1)选择一个子集
在我们获得的数据中,数据量可能非常大,而不是每一列都有可分析的贵重物品。目前,有必要从整个数据中选择适当的子集来分析它,这可以提高效率。但是,这种情况的数据列更少,可以忽略。
(2)名称名称
在数据分析过程中,某些列和数据易于混淆或产生歧义,这不利于数据分析。目前,您需要将名称的名称替换为一个简单的理解名称。您可以使用重命名函数来实现:
(3)数据处理
通过查看基本信息,可以推测“社会保险卡号”缺少值。如果未处理这些丢失值,数据分析结果将被干扰。缺少数据的常用处理方法是:删除缺失值,通常用于少量缺失值,这对整体数据几乎没有影响;平均填充通常用于数值类型;算法填充等。在这种情况下,缺少的值很小,并且使用DropNA函数直接删除缺失的数据。
(4)数据类型转换
为了防止导入数据被进口,所有数据将被迫为对象类型,但是实际数据分析过程“销售数量”,“应收款项”和“收入金额”。这些列需要浮动 - 点类型(float)数据,“销售时间”需要更改为时间格式,因此需要转换数据类型,并且可以使用asstype()函数。
(5)处置治疗
查看数据说明统计信息:我们可以看到最小值具有负数。原因是销售量的价值为负,销售量少于0的数据需要删除。
数据分析和可视化
这里涉及的数据可视化不多,因此我们将数据分析和可视化结合在一起。在数据分析之前,我们应确定分析的指标。
(1)指标1:平均每月消费计算:平均每月消费量=总消费数量 /月数
(2)指标2:平均每月消费量计算:平均每月消费量=总消费量 /月数量
(3)指标3:客户单位价格计算:客户单位价格=总消费量 /总消费数量
(4)指标4:消费趋势
每日消耗量分布:水平轴是时间,垂直轴是散射的点图。
结论:从分散的点图可以看出,每日消费量的绝大多数均低于500,并且有时候有很多消费量。
每月的消费量变化,销售时间汇总了每月聚合,然后在分组后找到累积金额,并绘制折叠图。
结论:1月,4月,5月和6月的消费量并没有太大变化,基本上是相同的,并且2月和3月的数量很低。它可能会受到春节假期的影响。由于数据不完整。
分析药物的销售,“产品名称”和“销售量”的两列被分析为系列形式,这对于后续统计很方便。
结论:医院应始终注意销量顶部的药物数量,以确保药物不会短并且会影响患者。
在这里,我们使用粮农组织(食品和农业组织)提供的数据集来练习如何使用Python进行探索性数据分析。
让我们介绍您首先使用的袋子
接下来,加载数据集
看一下数据量,
查看数据的信息,
让我们看一下变量的两列的信息,variable_full,
看看您拥有多少个国家,
看看那里有多少个时间周期,
看看时间周期是什么,
让我们看一下特定列中缺少值的数量和某个指标。例如,变量是丢失total_area时丢失值的数量。
我们通过几个维度分析数据:
我们按照上述治疗继续进行。现在,我们要计算此周期中的变化为一个时间周期。
我们还可以根据州分类在不同时期内检查某个国家的变化。
我们还可以根据属性在不同时期内的不同国家的变化,
我们还可以给国家和指标,以查看这个国家的变化,
我们也有区域(区域)而无需查看,让我们看一下:
从上图可以看出,有太多的区域要观察,我们可以合并一些区域。还原以帮助模型评估的区域数量。您可以创建一个词典来找到新的,更简单的地区(亚洲,北美,南美,大洋洲)
让我们看一下数据更改,
在上面的数据处理后,立即让我们重新介绍软件包。这次有一些新包裹
让我们看一下水资源状况,
从上图可以看出,只有少数国家报告了水资源的总量。从最后一段时间开始,只有少数国家 /地区拥有数据。我们将删除变量,因为很小的数据点会导致许多问题引起许多问题
接下来,让我们看一下国家降雨指数,
2002年之后将不会报告国家降雨,因此我们还删除了这些数据,
让我们拿出一个单独的大陆来分析并在南美举例说明。让我们看一下数据的完整性。
我们还可以指定不同的指标,
接下来,我们使用pandas_profiling来计算单个变量和多变量之间的关系,以及
我们必须在这里计算的是,例如
我们的乡村_POP从小到大,发现几个国家的农村人口确实存在负面。
人口数量不能小于0,因此这表明数据存在问题,并且存在肮脏的数据。如果进行分析和预测,请注意处理这些肮脏数据。
接下来,让我们看一下部分学位,我们规定,
正态分布的偏置应为零,负偏置表示左偏置,正偏置表示正确的偏差。
计算部分计算后,我们计算峰值度。峰值度也是正态分布。峰值程度不能为负。它只能是一个正数。
接下来,让我们看一下,如果数据分发非常不平衡,该怎么办
上图是2013 - 2017年从2013 - 2017年开始的国家总数的分布。通过上图,我们发现有许多人口不到2000,000的国家(不考虑单位),而且人口大于1200,000的国家很少。我们不能索要数据。目前我们应该怎么做?
通常,在这种情况下,使用日志转换成为正常。数字变化是数据转换的常见方式。数据转换的目的是使呈现数据的呈现接近我们想要的先决条件,以便更好地统计推断。
接下来,让我们使用日志转换它,并查看其偏移和峰值,
可以看出,偏差已大大减少并减少了倾斜度。
可以发现峰值学位也下降了。接下来,让我们看日志转换后的数据分布。
尽管数据仍然具有一定的偏见,但显然更好,并且演示文稿的分布相对标准。
首先,让我们看一下美国总人口的变化。
接下来,我们检查北美每个国家的总人口,随着时间的流逝,变化
目前,我们发现,由于某些国家 /地区的人口本身很小,因此整个形象并不明显。我们可以更改参考指标。那么我们有什么标准化?我们可以选择最低,平均,中位数,一个国家或其他位置的最大价值。。
我们还可以使用热图显示,使用颜色的阴影相对较小,
接下来,让我们分析水资源的分布,
我们可以进行日志转换,
让我们用热画
可以将连续值绘制到散落的点图片中,以方便查看,
让我们看一下随着季节的变化,人均GDP的变化。
关联:
与两个变量相关的两个变量之间的线性关系强度,我们可以使用相关性来识别变量。
现在,我们提出一个单独的指标分析,哪些因素与人均GDP的变化有关。正相关是积极的影响,负相关是负面影响。
当我们绘制图片时,我们还可以考虑使用夹具来设置间隔。例如,我们可以分为几个间隔进行分析。该间隔(例如人均GDP低,相对落后的国家和人均GDP较高)。这也是我们经常需要的操作。
进行日志更改,这是25个箱
让我们指定分割的标准,
我们还可以查看人均GDP和落后国家的内部数据。让我们看一下内部数据的分布,并使用Boxplot绘制图片。
对于此部分的分布,我们还可以计算其他指标。如下图所示,我们还可以查看洪水的统计数据。
收集器故障。当使用python进行数据分析时,python的值缺失,但是由于收集器是错误的,因此找不到它。数据集缺失,空和异常值,因此数据清洁是一个特别重要的步骤。
结论:以上是有关CTO笔记的相关内容答案是如何通过如何查看Python中缺少数据的,但是有多少相关内容答案,我希望它对您有所帮助!如果您解决问题,请分享,请分享它与更多关心这个问题的朋友?