当前位置: 首页 > 科技观察

三十个Python函数解决99%的数据处理任务!

时间:2023-03-12 02:20:10 科技观察

我们知道Pandas是Python中使用最广泛的数据分析和操作库。它提供了很多函数和方法来快速解决数据分析中的数据处理问题。为了更好的理解如何使用Python函数,我将以客户流失数据集为例,分享数据分析过程中最常用的30个函数和方法。文末可下载数据。数据如下所示:importnumpyasnpiimportpandasaspddf=pd.read_csv("Churn_Modelling.csv")print(df.shape)df.columnsresultoutput(10000,14)Index(['RowNumber','CustomerId','Surname','CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited'],dtype='对象')1。删除列df.drop(['RowNumber','CustomerId','Surname','CreditScore'],axis=1,inplace=True)print(df[:2])print(df.shape)结果输出说明:“axis”参数设置为1放置列,0设置为行。“inplace=True”参数设置为True以保存更改。我们减去4列,从而将列数从14减少到10。GeographyGenderAgeTenureBalanceNumOfProductsHasCrCard\0FranceFemale4220.011IsActiveMemberEstimatedSalaryExited01101348.881(10000,10)2.选择一个特定的列我们从csv文件中读取一些列数据。您可以使用usecols参数。df_spec=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])df_spec.head()3.nrows可以使用nrows参数创建一个csv包含文件前5000行的数据框。也可以使用skiprows参数从文件末尾选择行。skiprows=5000意味着我们将在读取csv文件时跳过前5000行。df_partial=pd.read_csv("Churn_Modelling.csv",nrows=5000)print(df_partial.shape)4.样本创建数据框后,我们可能需要一个小样本来测试数据。我们可以使用n或frac参数来确定样本大小。df=pd.read_csv("Churn_Modelling.csv",usecols=['性别','年龄','任期','余额'])df_sample=df.sample(n=1000)df_sample2=df.sample(frac=0.1)5.检查缺失值isna函数识别数据框中的缺失值。通过将isna与sum函数一起使用,我们可以看到每列缺失值的个数。df.isna().sum()6.使用loc和iloc添加缺失值使用loc和iloc添加缺失值,两者的区别如下:loc:选择标签iloc:选择索引我们先创建20个随机索引进行选择。missing_index=np.random.randint(10000,size=20)我们会用loc把一些值改成np.nan(缺失值)。df.loc[missing_index,['Balance','Geography']]=np.nan“Balance”和“Geography”列中的20个缺失值。让我们使用iloc作为另一个例子。df.iloc[missing_index,-1]=np.nan7。填充缺失值fillna函数用于填充缺失值。它提供了很多选择。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。avg=df['Balance'].mean()df['Balance'].fillna(value=avg,inplace=True)fillna函数的方法参数可以根据上一个或下一个值来计算值在列中(例如method="ffill")以填充缺失值。它对于时间序列等顺序数据非常有用。8、去除缺失值另一种处理缺失值的方法是去除它们。以下代码将删除具有任何缺失值的行。df.dropna(axis=0,how='any',inplace=True)9.根据条件选择行在某些情况下,我们需要符合某些条件的观察(即行)france_churn=df[(df.Geography=='France')&(df.Exited==1)]france_churn.Geography.value_counts()10.使用查询来描述条件查询函数提供了一种更灵活的方式来传递条件。我们可以用字符串来描述它们。df2=df.query('80000=6,0)20.Rank函数rank函数为一个值分配一个等级。让我们创建一个列,根据客户的余额对客户进行排名。df_new['rank']=df_new['Balance'].rank(method='first',ascending=False).astype('int')21.一列中唯一值的个数使用时派上用场分类变量。我们可能需要检查唯一类别的数量。我们可以检查值计数函数返回的序列的大小或使用nunique函数。df.Geography.nunique22。内存使用使用函数memory_usage,这些值以字节为单位显示内存。df.memory_usage()23.数据类型转换默认情况下,分类数据以对象数据类型存储。但是,这可能会导致不必要的内存使用,尤其是当分类变量的基数较低时。低基数意味着与行数相比,该列的唯一值很少。例如,地理列有3个唯一值和10000行。我们可以通过将其数据类型更改为“类别”来节省内存。df['Geography']=df['Geography'].astype('category')24.替换值替换函数可以用来替换数据框中的值。df['Geography'].replace({0:'B1',1:'B2'})25.绘制直方图pandas不是数据可视化库,但它使创建基本图变得非常简单。我发现使用Pandas创建基本图比使用其他数据可视化库更容易。让我们创建一个具有平衡列的直方图。26.减少浮点小数点pandas可能会为浮点数显示过多的小数点。我们可以很容易地调整它。df['Balance'].plot(kind='hist',figsize=(10,6),title='CustomerBalance')27.更改显示选项我们可以更改各种参数的默认显示选项,不用每次都手动调整显示选项。get_option:返回当前选项set_option:更改选项让我们将小数点显示选项更改为2。pd.set_option("display.precision",2)您可能想要更改的其他一些选项包括:max_colwidth:最大字符数在列中显示max_columns:要显示的最大列数max_rows:要显示的最大行数28.按列计算百分比变化pct_change用于计算系列中某个值的百分比变化。在计算时间序列或逐元素数组的变化百分比时,它很有用。ser=pd.Series([2,4,5,6,72,4,6,72])ser.pct_change()29.基于字符串的过滤我们可能需要根据文本数据(例如客户名称(好的)。我在数据框中添加了df_new名称。df_new[df_new.Names.str.startswith('Mi')]我们可能需要根据客户姓名等文本数据过滤观察结果(行)。我在数据框中添加了df_new名称。30.设置数据样式我们可以通过使用Style属性来实现这一点,它返回一个Style对象,它提供了许多用于格式化和显示数据框的选项。例如,我们可以突出显示最小值或最大值。它还允许应用自定义样式功能。df_new.style.highlight_max(axis=0,color='darkgreen')