数据分析师的日常工作涉及各种任务,例如数据预处理,数据分析,机器学习模型创建和模型部署。在这篇文章中,我将分享覆盖90%数据分析问题的10个Python操作。获得一些喜欢、收藏和关注。1.读取数据集读取数据是数据分析不可或缺的一部分,了解如何从不同的文件格式读取数据是数据分析师的第一步。以下是如何使用pandas读取包含Covid-19数据的csv文件的示例。importpandasaspd#读取countries_data文件以及read_csv中的位置function.countries_df=pd.read_csv('C:/Users/anmol/Desktop/Courses/PythonforDataScience/Code/countries_data.csv')#first5rowsofthedataframecountries_df.head()下面是countries_df.head()的输出,我们可以用它来查看dataframe的前5行:2.汇总统计接下来就是了解数据通过查看数据汇总,如NewConfirmed、TotalConfirmed等数值列,如counts、mean、standarddeviation、quantiles和countrycodes等分类列,出现值最高的countries_df.describe()使用describe函数,我们可以得到数据集连续变量的汇总,如下图:在describe()函数中,我们可以设置参数"include='all'"来得到连续变量和分类变量的汇总countries_df.describe(include='all')3.数据选择和f过滤分析其实不需要数据集的所有行和列,只需要选择感兴趣的列,根据问题过滤一些行即可。例如,我们可以使用以下代码选择列Country和NewConfirmed:countries_df[['Country','NewConfirmed']]我们还可以按国家/地区过滤数据,使用loc我们可以根据这样的值过滤列:countries_df.loc[countries_df['Country']=='UnitedStatesofAmerica']4.聚合计数、总和、均值等数据聚合是数据分析中最常执行的任务之一。我们可以使用聚合来查找各国新确诊病例的总数。使用groupby和agg函数执行聚合。countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})5.Join使用Join操作将2个数据集合并为一个数据集。例如:一个数据集可能包含不同国家的Covid-19病例数,而另一个数据集可能包含不同国家的经纬度信息。现在我们需要将这两条信息结合起来,然后我们就可以进行join操作了,如下所示)#joiningthe2dataframe:countries_dfandcountries_lat_lon#语法:pd.merge(left_df,right_df,on='on_column',how='type_of_join')joined_df=pd.merge(countries_df,countries_lat_lon,on='CountryCode',how='inner')joined_df6,内置函数学习min(),max(),mean(),sum()等数学内置函数,对进行不同的分析很有帮助。我们可以通过调用它们将这些函数直接应用于数据框,这些函数可以在列上独立使用,也可以在聚合函数中使用,如下所示::6,631,899#找出不同国家新确诊病例的总和countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})#Output#NewConfirmed#Country#Afghanistan75#Albania168#Algeria247#Andorra0#Angola537.用户自定义函数我们自己写的函数就是用户自定义函数。我们可以在需要的时候调用这个函数来执行这些函数中的代码。例如,我们可以创建一个函数来添加2个数字,如下所示:#用户定义的函数是使用'def'关键字创建的,后跟函数定义-'addition()'#和2个参数num1和num2defaddition(num1,num2):returnnum1+num2#callingthefunctionusingfunctionnameandprovingtheargumentsprint(addition(1,2))#output:38.PivotPivot将一行中的唯一值转换成多个新的列,这是非常棒的数据加工技术。在Covid-19数据集上使用pivot_table()函数,我们可以将国家名称转换为单独的新列:#使用pivot_table将Country列内的值转换为单独的列并#填充与这些列对应的值withnumericvariable-NewConfimedpivot_df=pd.pivot_table(countries_df,columns='Country',values='NewConfirmed')pivot_df9,遍历数据框经常需要遍历数据框的索引和行,我们可以使用iterrows函数遍历数据框:#iteratingovertheindexandrowofadataframeusingiterrows()functionforindex,rowincountries_df.iterrows():print('Indexis'+str(index))print('Countryis'+str(row['Country']))#输出:#Indexis0#CountryisAfghanistan#Indexis1#Country是阿尔巴尼亚#......10。字符串操作很多时候我们处理数据集中的字符串列,在这种情况下,了解一些基本的字符串操作很重要。例如如何将字符串转换为大写、小写以及如何找到字符串的长度。#countries_df['Country_upper']=countries_df['Country'].str.upper()#countrycolumntolowercasecountries_df['CountryCode_lower']=countries_df['CountryCode'].str.lower()#finding国家列中的字符长度countries_df['len']=countries_df['Country'].str.len()countries_df.head()
