作者|CDADataAnalyst这一步可以算是正式做菜的开始。在这部分之前的数据操作部分,我们列出了一些不同维度的分析指标,本章主要看一下这些指标是如何计算的。1.算术运算算术运算是基本的加、减、乘、除。Excel或Python中任意两列数值类型都可以直接进行加减乘除。Excel中的算术运算比较简单,这里就不展开了。下面主要介绍Python中的算术运算。两列相加的具体实现如下图:两列相减的具体实现如下图:两列相乘的具体实现如下图:两列相除的具体实现为如下图所示:任意列加/减一个常量值,该列中的所有值都会被这个常量值加/减,具体实现如下图所示:任意列乘以/除以一个常量value,这一列的所有值都会被这个常量值乘/除,具体实现如下图所示:2.比较运算比较运算与Python基础知识中提到的比较运算一致,并且也是约定俗成的大于、等于、小于等,但是这里的比较是在列之间进行的。Excel中的列间比较操作与Python中的方法一致,示例如下图所示。以下是Python中列与列比较的一些示例。3.汇总运算上面提到的算术运算和比较运算都是在列之间进行的。运算的结果是多少行值多少就返回多少结果,而汇总操作就是对数据进行汇总,返回一个汇总后的结果值。1.countnon-nullvaluecount非空值count是计算一定区域内非空(cell)值的个数。在Excel中,counta()函数用于计算区域中非空单元格的数量。与counta()函数类似的一个函数是count()函数,它用于计算区域中包含数字的单元格的数量。在Python中,直接对整张数据表调用count()函数,返回结果为数据表中每一列非空值的个数。具体实现如下。默认情况下,count()函数计算每一列非空值的个数,你可以通过修改axis参数使其等于1来计算每一行非空值的个数。也可以索引某一列或某行,分别查看该列或该行非空值的个数。2.Sum求和就是对某个区域内的所有值求和。在Excel中请求某区域的求和,直接在sum()函数后面的括号中指定求和的区域,即求和哪些值。一个例子如下所示。在Python中,直接对整张数据表调用sum()函数,返回的是数据表每一列的求和结果,如下例所示。sum()函数默认对每一列进行求和,可以通过修改axis参数使其等于1来对每一行的值进行求和。也可以对某一列或某一行进行索引,进行求和分别对这一列或这一行的数据进行操作。3.平均值平均值是对一定区域内的所有值计算算术平均值。均值是用来衡量数据总体情况的指标,容易受到最大值和最小值的影响。在Excel中,计算某个区域的平均值是使用average()函数,只要在average()函数中指定需要进行平均值运算的区域即可,例如:Python中的平均值就是使用它是mean()函数。如果直接对整个表调用mean()函数,则返回表中每一列的平均值。默认情况下,mean()函数计算数据表中每一列的平均值。可以修改axis参数使其等于1来对每一行进行均值计算。也可以通过索引提取某列或某行,然后在该行或该列上调用mean()函数分别计算该行或该列的均值。4.max求最大值求最大值就是比较一组数据中所有值的大小,然后返回最大值。在Excel和Python中,max()函数用于查找最大值。在Excel中,只需要在max()函数中指定需要最大值的区域即可;在Python中,和其他函数一样,如果对整个表直接调用max()函数,则返回数据表中每一列的最大值。max()函数也可以计算每一行的最大值,也可以单独计算一行或一列的最大值。5.min求最小值。找到最小值对应于找到最大值。通过比较一组数据中所有值的大小,返回最小值。Excel和Python都使用min()函数来查找最小值。它的用法和求最大值类似,这里不再赘述。示例代码如下。6.Median求中位数中位数就是把一组包含n个数据的序列X从小到大排列,中间位置的数。中位数是位于中间的数,能反映数据的总体情况,不易受最大值和最小值的影响,因此比平均值更能反映数据的分布情况。现有序列为X:{X1,X2,X3,...,Xn}。Medianifnisodd:Medianifniseven:比如1,3,5,7,9的中位数是5,1,3,5,7的中位数是5就是(3+5)/2=4。在Excel和Python中查找一组数据的中位数是使用median()函数实现的。下面是Excel中求中位数的例子:在Python中,median()函数的使用原理与其他函数相同。7.Mode求众数顾名思义,众数就是一组数据中出现次数最多的数,求众数返回的是这组数据中出现次数最多的数。mode()函数在Excel和Python中均用于查找众数,使用原理与其他函数完全相同。在Excel中求众数的例子如下:在Python中求众数的例子如下:8.Varianceofvar方差用于衡量一组数据的离散程度(即极差)数据波动)。Excel和Python都使用var()函数来查找一组数据中的方差。下面是Excel中计算方差的例子:在Python中,var()函数的使用原理与其他函数相同。9.std求标准差标准差是方差的平方根,两者都用来表示数据的离散程度。stdevp()函数用于计算Excel中的标准差。示例如下:std()函数用于计算Python中的标准差。std()函数的使用原则与其他函数一致。示例如下:10.quantile寻找分位数分位数是比中位数更详细的基于位置的指标。分位数主要包括四分位数、四分之一二分位数和四分之一三分位数。四分位数是中位数。percentile()函数用于在Excel中查找分位数。示例如下:quantile()函数用于在Python中查找分位数。必须在分位数后的括号中指定所需的分位数,quantile()函数的使用方式与其他函数相同。4.相关性计算相关性常被用来衡量两个事物之间的相关程度,比如我们之前举的例子:啤酒和尿布高度相关。我们一般用相关系数来衡量两者的相关程度,所以相关计算其实就是计算相关系数,比较常用的是皮尔逊相关系数。correl()函数用于在Excel中获取相关系数。示例如下:Python中使用corr()函数获取相关系数。示例如下:corr()函数也可以用来获取整个DataFrame表中的每一条数据。两个字段之间的关联,示例如下:
