当前位置: 首页 > 网络应用技术

熊猫中有多少种方法可以实施聚合统计?

时间:2023-03-08 19:44:59 网络应用技术

  指南:熊猫是当前Python数据分析中最重要的工具。它提供了功能强大且灵活的API,可以在数据分析和处理中满足用户的多种选择和实现方法。图案,本文以PANDAS中最基本的汇总统计功能为例,作为共享各种实现解决方案的示例。最后一个应该被视为表演...

  这是仿真数据集。可能希望提供一个数据框架,包括以下两列。需求是要计算各个国家的将军的数量。应该说这是一个非常基本的需求,旨在通过这一需求来分解大熊猫中的几种普遍的群体聚集方式。

  上述需求是每个国家的将军的人数。因此,只需要简单地计算国家田间计数统计数据:

  当然,上述实现实际上仅适用于计算计数统计的特定需求,并且对于其他骨料统计信息无法满足。

  第一个实施是一种聪明的方法。实际上,对于更常见的聚合统计,它实际上并未概括。那么,熊猫的标准聚合是什么?对于上述仅一个聚合物函数的示例,在熊猫中,更倾向于使用groupby direct+聚合函数,例如上述组计数要求,这实际上是由groupby+实现的。数数。

  此外,有两种特定的实施表格:

  值得指出的是,在此示例中,除了国家以外的其他列实际上只是名称列表,但实际上与第一种形式不同。具体细节是在提取名称的名称之前,尽管只有名称列,但它仍然是一个dataframethe

  上面的方法是使用GroupBy+的相应团聚功能。这种聚合统计方法很容易理解,但缺点是它只能达到单个聚合需求。这次,出现具有更强大功能的AGG函数。Agg是聚集的缩写。可以看出,它专门用于聚合统计。它可以接收各种不同的聚合功能,因此更自定义。

  AGG函数主要接收两个参数。第一个参数func用于接收聚合物。它可以是函数名称或对象,函数列表或字典。使用方法非常灵活;第二个参数iSaxis是指定聚合的轴向方向,默认值为axis = 0,即,列聚集在行方向配对。agg的函数文档如下:

  在这里,上述组计数仍然是GroupBy+Agg的三种典型应用方法:

  如果上述实现方法仍然是熊猫中令人满意的聚合统计,是否应该将此方法视为一种显示操作?实际上,这是熊猫中应用的强大功能。有关详细信息,您可以参考Pandas Pandas中的这三个功能。我没想到是我数据处理的主要力量。

  由于Apply支持各种重负载方法,因此该组还可以为分组数据帧应用程序实施特定的聚合物函数统计信息。首先查看实际应用程序,如下:

  在上述方法中,GroupBy('country')之后的结果实际上获得了一个dataFrameGroupby对象,该对象实际上是一组(键,值)集合。每个密钥对应于国家列中的值。每个值是对应于键的子框架,并且特定的拆卸打印如下:

  然后,基本上连接的申请函数基本上是在每个组下汇总sub -dataframe,并且使用哪种聚合方法取决于应用程序的哪个参数!

  本文介绍了最基本的统计场景,以介绍熊猫中的4种不同的实施方案。其中,第一个value_counts没有通用性,仅适用于组计数。聚合统计仅适用于单个聚合函数的需求;第三组GroupBy+AGG具有灵活而多样的参数方法,这是最强大的统计解决方案。第四种groupby+申请属于灵活应用应用程序施加应用,重负载功能可用于满足某些特定的统计需求。

  最后,尽管本文将简单的小组视为一个情况,但提到的方法实际上是需要表示熊猫中各种统计需求。

  原始:https://juejin.cn/post/7100138693742034952