本文在PANDAS库中介绍了一个非常有用的功能:分配
当我们处理数据时,有时需要根据列以后续使用来计算新列,这等效于根据已知列表获得新列。目前,分配函数非常方便。以下示例用于说明功能的使用情况。
本文是《熊猫》文章的串行系列的第21条,该系列主要分为三类:
基本零件:1-16,主要是为了引入大熊猫的基础和共同操作,例如数据创建,搜索查询,排名,缺少价值/重复处理以及其他常见数据处理操作
高级部分:第17章开始解释大熊猫的高级操作方法
比较sql,学习熊猫:比较sql和pandas的操作
分配函数只有一个参数:dataframe.assign(** kwargs)。
一些有关参数的说明:
最后,此函数的返回值是一个新的数据帧数据框,包括所有现有列和新生成的列
当调用该值时,我们可以直接在数据框上计算:
我们可以查看原始DF并发现它是相同的
操作字符串类型的数据:
您可以通过引用现有系列或序列来直接引用相同的行为:
在Python3.6+中,我们可以在同一分配中创建多个列,并且其中一个也可以取决于同一分配中定义的另一列,即中间生成的新列可以直接使用:
如果我们重新分配现有列,则将涵盖现有列值:
我们还可以使用熊猫中的应用功能来实施
生成副本,我们直接在副本上运行:
我们发现原始数据通过分配函数的操作不变,但是通过apply操作的数据已更改
最后,我模拟数据并计算每个人的BMI。
人体质量指数是BMI指数,称为物理指数,是一种用于测量人体脂肪以及是否健康的常用标准。
其中:重量单位是公斤,高度单位为m
通过上面的示例,我们发现: