Pandas是Python中使用最广泛的数据分析和操作库。它提供了许多功能和方法来加速“数据分析”和“预处理”步骤。为了更好的学习Python,我将以客户流失数据集为例,分享数据分析过程中最常用的“30”个函数和方法。数据如下:importnumpyasnpiimportpandasaspddf=pd.read_csv("Churn_Modelling.csv")print(df.shape)df.columnsresultoutput(10000,14)Index(['RowNumber','CustomerId','Surname','CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited'],dtype='object')1.删除列df.drop(['RowNumber','CustomerId','Surname','CreditScore'],axis=1,inplace=True)print(df[:2])print(df。shape)结果地理性别年龄终止平衡数量hascrcard\0法国女性4220.0111iSactivivemember估计估计降低了01101348.88.881(10000,10000,10)说明轴:行。将“inplace=True”参数设置为True以保存更改。我们减去4列,从而将列数从14列减少到10列。2.选择特定列我们从csv文件中读取部分列数据。您可以使用usecols参数。df_spec=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])df_spec.head()3.nrows可以使用nrows参数创建一个csvA文件前5000行的数据帧。也可以使用skiprows参数从文件末尾选择行。skiprows=5000意味着我们将在读取csv文件时跳过前5000行。df_partial=pd.read_csv("Churn_Modelling.csv",nrows=5000)print(df_partial.shape)4.样本创建数据框后,我们可能需要一个小样本来测试数据。我们可以使用n或frac参数来确定样本大小。df=pd.read_csv("Churn_Modelling.csv",usecols=['性别','年龄','任期','余额'])df_sample=df.sample(n=1000)df_sample2=df.sample(frac=0.1)5.检查缺失值isna函数识别数据框中的缺失值。通过将isna与sum函数一起使用,我们可以看到每列缺失值的个数。df.isna().sum()6.使用loc和iloc添加缺失值使用loc和iloc添加缺失值,两者的区别如下:loc:选择标签iloc:选择索引我们先创建20个随机索引选择missing_index=np.random.randint(10000,size=20)我们将使用loc将一些值更改为np.nan(缺失值)。df.loc[missing_index,['Balance','Geography']]=np.nan“Balance”和“Geography”列中的20个缺失值。让我们使用iloc作为另一个例子。df.iloc[missing_index,-1]=np.nan7。填充缺失值fillna函数用于填充缺失值。它提供了很多选择。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。avg=df['Balance'].mean()df['Balance'].fillna(value=avg,inplace=True)fillna函数的方法参数可以用来根据上一个或下一个来放置值列中的值(例如method="ffill")以填充缺失值。它对于时间序列等顺序数据非常有用。8、去除缺失值另一种处理缺失值的方法是去除它们。以下代码将删除具有任何缺失值的行。df.dropna(axis=0,how='any',inplace=True)9.根据条件选择行在某些情况下,我们需要符合某些条件的观察(即行)france_churn=df[(df.Geography=='France')&(df.Exited==1)]france_churn.Geography.value_counts()10.使用query来描述条件query函数提供了一种更灵活的方式来传递条件。我们可以用字符串来描述它们。df2=df.query('80000
