当前位置: 首页 > 网络应用技术

数据科学学习探索数据分析(EDA)

时间:2023-03-08 00:16:11 网络应用技术

  本文是作者对图灵系列编程系列研究的“数据科学家统计学”的一些看法和摘要。本文主要指该书。我希望本文可以帮助联系,研究和研究数据ScienceSenceFirst,第一篇文章介绍了探索数据分析(EDA)的相关内容。

  在现代,尤其是在这个大数据时代,我们获得数据的方式非常丰富。各种仪器(例如各种传感器)的测量值,事件,文本,图像和视频属于数据源。大量信息流倒出。如何将这些大量的原始数据转换为可操作的信息今天,数据科学面临的主要挑战。首先,需要非替代的原始数据来构建或目的是为了收集有效的数据集。

  结构化数据的基本类型有两种:数字数据和分类数据。在它们的情况下,数值数据也分为两种形式的连续和离散类型。连续数据也称为间隔数据和浮动 - 点数据,这意味着数据可以在一个间隔中获取任何值。离散数据通常只能用于整数数字。例如,计数,因此通常称为计数数据。类别数据(因素数据)只能从特定集中获取。这些值表示该数据的一系列可能类别,例如:计算机编程语言主要包括三种类型的汇编语言,机器语言和高级语言(类别);中国在中国;中国的中国列表是北京,上海,天津和重庆。双差数据是一个特殊的分类数据。数据值只能取自两个(例如0或1,true或false)之一,通常称为boolean -type数据和逻辑数据。,例如数值排序(1、2、3、4或5)。

  注意:连续数据和离散数据之间的差异:1。离散变量是通过计数获得的,即计算所需对象的计算,并且增长率未固定。数字包含几位数字,并且是密集的,并且是密集的,并且增长量可以分为固定单位2。不同的域。discrete变量:离散变量的域(即,对象的集合)是离散的;连续变量的域(即,对象的集合)是连续的。3。不同的分组方法。discrete变量:如果变量值很小,则组可以对应于变量值,该值称为单个项目分组。如果变量值很大,并且变量值的数量很大,则整个变量值依次分为几个间隔,每个变量的值根据其大小确定。该数据包称为组距离数据包。在组距离组中,相邻组不仅可以具有一定的上限和下限,也可以重叠相邻组的组限制。连续变量:由于连续变量不能一一列出其变量,因此只能使用一个组间隔方法和相邻的组限制必须重叠。

  总结:

  矩形数据对象是数据科学分析中的典型参考结构。矩形数据对象包括电子仪和数据库表。隧道数据本质上是两个维矩阵。通常将数据表中的线称为记录(情况,示例),将列称为功能(属性,变量)。数据不在矩阵的形式中。非结构性数据必须在将其表示为矩阵数据表格之前进行处理和操作。在矩形数据外,还有其他类型的数据:例如:顺序数据,空间数据和图形(或网络)数据。(这里的空间和图形与矩形相同,该矩形指的是数据结构。)

  面对大量数据的记录和特征,有必要对它们有一般的了解,也就是说,有必要总结数据特征的特征。数据是为了获得每个功能的“典型值”。典型值是指数据的最常见位置的估计,即数据的浓度趋势。

  平均值(平均值)是最基本的位置估计。它等于所有值和划分的数量。对于某些数据集,我们需要给予该值的权重。对于位置估计时间,我们需要采取加权平均值(权重平均值)。它等于加权值的总和。= frac {sigma {i = 1}^n w_ixi} {sigma {i = 1}^n w_i},尽管平均值易于计算且易于使用,但不能当数据浓度对组值(极值)效应的效果具有群体值(极值)效应时,不可能是不可能的。更准确地估计了估计。目前,中位数是一个更好的选择。中值是位于有序数据浓度位置的值。这是对位置的更稳定的估计,但是与所有观测值计算的平均值不同,中位数仅取决于有序的数据集位置位置。值得与加权平均值,加权中型(加权中位数)相似,也具有广泛的应用程序,这使得分别在此值以上或低于此值的重量的一半重量的分类数据集。

  如果您想尽可能多地使用所有观察值,则可以对该位置进行更稳定的估计,我们可以使用平均尾部切割。它是指在数据集被消除后消除数据集后的平均值,以消除极值对平均值的影响。例如,在国际体育事件中,通常会删除最高分数和最低分数。尾平均。计算公式:$ $ bar x = frac {sigma_ {i = p+1}^{n-p} x_i} {n-2p} $ $对于小规模数据集,还有许多其他更稳定,更有效的数据集估算,请勿在此处介绍。

  该位置只是总结特征的一个维度,另一个维度是变体(可变性)。无论是紧密收集还是发散。最广泛的变体估计是基于位置估计数据值和观察数据值(偏差)之间的偏差。或残留。在这里,给出了各种计算偏差方法。

  第一个是平均偏差(平均绝对设备),即数据和平均值之间偏差的绝对值的绝对值计算。Give公式:$ $ $平均绝对偏差= frame {sigma_ {i = 1}^n lvert x_i-bar x vert} {n-2p} $ $更广泛的变体估计是基于BIA的方差和标准偏差。方差是偏差平方值的平均值,标准偏差是的平方偏差是square.give公式:$ o差异= s^2 = frame {sigma(x-bar x)^2} {n-} $ $ $ $ $ $ $ $标准偏差= s = sqrtfrac {sigma(x-bar x)^2} {n-1} $ $

  注意:在统计模型中,平方值的使用比用法更方便,因此标准偏差比平均绝对偏差更广泛,并且在公式中使用N-1是因为我们使用自由度执行公正的估计。

  无论是正方形的差异,标准偏差还是绝对平均偏差对组值不稳定,尤其是方差和标准偏差对极端值更敏感。为此,我们提出了一个更稳定的变体估计数量,中值位置,中位置位置绝对设备通常被缩写为MAD。计算公式:$ O MAD =中位数(lvert x_1-m) Vert,lvert x_2-m vert,...,lvert x_n-m vert)$ $,我们还可以参考尾部切割标准偏差的尾部切割平均计算。

  注意:即使数据符合正态分布,方差,标准偏差,平均绝对偏差和中位数的绝对偏差也不是同等的估计。实际上,标准偏差始终大于平均绝对偏差和平均绝对偏差和平均绝对偏差始终大于中位数的绝对偏差。标准偏差具有相同的量表。

  估计分离的另一种方法是基于有序数据的分布。其中最基本的是测量极(范围)或全距离,但极性差异对组值非常敏感。为避免这种情况,我们可以删除有序数据的两端的值,然后检查数据的数据的极端。差异是百分比(百分比)之间的差异。估计常用的测量方法估计为成为第25点和第75点之间的区别。

  百分比水平对于数据的总体分布非常有用,并且数字和点的数量被广泛使用。尤其是在总结数据(扩展范围)的数据时,百分比级别是数十个有用的。

  BoxPlot(Boxplot)是一个快速的可视化图。它基于基于百分比的数据分布。它可以显示一组数据的最大值,最小值,中值以及上和下周数。

  使用python绘制一个简单的框图,其中框的顶部和底部为75%和25%。框中的水平线表示中间。线段从盒子的顶部或盒子的底部延伸被称为晶须。它必须从最大值扩展到最小值,显示数据的差异,框外的圆(或点)表示组值。

  变量(特征)的频率表可以均匀地将变量的极性差分为多个音高段,并给出每个段中落下的数字值的数量。

  使用Python绘制简单的直方图。您可以观察到这两组是空的,并且有必要添加一个空的组距离。通常在空的小组距离中有一个非常有价值的信息。尝试不同尺寸的组间距也非常有用。如果小组距离太大,则可能会隐藏一些分布的重要特征;如果组距离太小,则结果将太颗粒状,并且失去查看整体图的能力。

  请注意绘制直方图:1。空的组距离也应在直方图中2。每组之间的距离相等3。组间距(或组的大小)的数量是自定确定的。4。每个块彼此靠近,除非有一个空的组距离,否则块之间没有差距。

  注意:频率表和百分比由创建组的距离总结。在正常情况下,每个组中的点数和点数都相同,但每个组的大小都不同,这称为称为计数组距离。组的大小相同,但计数可能不同,称其为等级组距离。统计学力矩:在统计理论中,位置和可变性称为第一阶 - 级和第二阶 -分布,第三阶和第四阶扭矩的分布称为偏度(偏度)峰度。部分性显示数据是较小还是大值;峰度显示了数据中极值的趋势。在正常情况下,我们不使用测量来确定偏差和峰值度,而是通过可视化发现它们。

  密度图使用连续线来显示数据值的分布。密度图可以像直方图一样平滑,尽管它通常使用核密度估计来直接从数据中进行计算。

  使用Python绘制正态分布值集的密度图和直方图的直方图。您可以清楚地看到核密度图和直方图之间的关系。当数据量较大时,核密度图和直方图平滑。与曲线更相似。

  如图所示,选择了100个数据和10,000个数据核密度图以及直方形组中间点的纤细曲线拟合。

  数据浓度数量的类别或值的数量是分类数据的基本交换总统仪表,通常不用于数值数据。

  某些数据类别可以表示或映射到同一量表的离散值,也就是说,它可以与一系列数值相关联。使用该类别的概率。

  条形图和蛋糕图通常用于可视化分类数据。剥离图表示条带中每个类别的频率或比例。一个风扇形的部分表示每个类别的频率或比例。

  应该注意的是,尽管条形图与直方图非常相似,但两者之间仍然存在一些差异。在条形图中,x轴代表因子变量的不同类别,在直方图中,x轴代表。变量以数值重量的形式的值。在直方图中,在直方图中,各种条通常彼此相邻。条带之间的间隔表示空的组距离(即数据中未出现的值),在条映射中,每个条形形状的显示彼此独立于彼此。

  使用Python绘制一些离散变量和蛋糕图。

  校正是指两个变量之间的相关程度。无论是数据科学还是研究,许多建模项目的探索性数据分析都必须检查预测因素之间的相关性以及预测因素与目标变量之间的相关性。

  如果一个变量的高值随另一个变量的高值而变化,并且其低值随另一变量的低值而变化,那么这两个变量是正相关的。另一个变量,反之亦然,然后两个变量是负相关的。如果一个变量的变化对另一个变量没有显着影响,那么这两个变量无关。

  首先介绍三个重要概念:

  Pilson相关系数公式:$ $ r = frac {sigma_ {i = 1}^ n {(x_i-bar x)(y_i-bar y)}}}} {(n-)s_xs_y}系数不再是有用的测量。目前,需要计算非线性相关系数以对变量的相关性做出判断。反映一组独立变量(两个或更多)(两个或更多)之间相关性的指标称为复合。人际关系,不要引入太多。

  在可视化方面,我们可以使用热图(请参阅8.1.1)可视化相关矩阵。

  以Sklearn库中的葡萄酒数据集为例(作者已在CSV文件中导入数据集),以计算数据集的变量(特性)之间的系数。

  散射点映射是两个测量数据变量之间关系的标准方法。在散射点映射中,x轴代表变量,y轴代表另一个变量,图中的每个点都对应于记录。

  葡萄酒数据浓度酒精和脯氨酸的两列被用作绘制散射图的示例。

  一个变量的分析称为单个变量分析;对两个变量及其关系的分析称为双变量分析,例如(线性)相关分析;并且有两个以上的变量称为多变量分析。作为单个变量分析,双变量分析不仅可以计算总统的测量,而且还会生成视觉显示。适用的双重或多变量分析的类型取决于数据本身,该数据本身,该数据本身,IS,数据是数值或分类数据。

  可以通过双重变量分析加条件(条件)的概念来获得多个变量的分析和可视化,因此首先引入两个变量的可视化方法。方法基本上对应于直方图和密度图。

  8.1.1六边形图,等效线和热图六角形图,等效线和热图适用于两个数值变量,它们都给出了两个维度密度的视觉表示。现在,使用Wine Dataset作为示例,将python作为一个示例实现可视化,并简单地显示三个图像。

  六边形图不是数据点,而是将记录(样本)填充到六角形组距离中,每个六角形都用不同的颜色绘制,以显示每个组中的记录数量。

  上图在散射点图上绘制了等效线图(两个维密度图),该图可以可视化两个数值变量之间的关系。等待 - for -line线本质上是两个变量的地形图,每个变量等等。电势线代表特定的密度值,并随着接近“峰值”而增加。

  当然,视觉方法可以具有多种用途。例如,热图还可以显示两个离散变量之间的合并关系或分类变量中数值数据的相关分析。

  8.1.2某些数值数据的框图和小提琴图根据分类变量或同时分配多个变量的分布。数据的可视化通常使用盒子地图或小提琴图。

  框图可以非常直观地比较不同的类别(或不同功能)数据分布。

  小提琴图是框图的增强功能。它使用y轴作为绘制密度估计的密度。在图纸中,密度用于制造图像和逆转(即核密度函数),以及由地层产生的形状,产生小提琴 -喜欢图形。

  如果指定内部='四分位数',则绘制的小提琴图是框图的组合,在某些情况下,它将具有更好的效果。

  例如,当可视化上述数据集wine_ap(特征酒精,脯氨酸)时,可以在视觉上可视化条件(表征班级,类= 1,2,3)。我们通过建立多个子图来比较它们。例如:

  在这一点上,探索性数据分析的简要介绍已经结束。对于任何基于数据的项目,最重要的步骤是查看数据,这是探索数据分析的关键概念。通过总结和视觉数据,我们可以理解和了解有价值的项目。从简单的测量(例如位置估计值和变体估计值)到探索多个变量之间的关系,我们可以使用各种技术和工具将强大的表达能力(例如Python)结合起来,例如建立各种数据探索和分析方法。

  最后,我希望本文能够帮助所有阅读的人,也请更多注意。作者将介绍有关数据科学的更多信息,并使用Python和其他语言来分析数据分析。