十个Python技巧，涵盖90%的数据分析需求！

时间：2023-03-13 19:33:57 科技观察

数据分析师的日常工作涉及各种任务，例如数据预处理，数据分析，机器学习模型创建和模型部署。在这篇文章中，我将分享覆盖90%数据分析问题的10个Python操作。获得一些喜欢、收藏和关注。1.读取数据集读取数据是数据分析不可或缺的一部分，了解如何从不同的文件格式读取数据是数据分析师的第一步。以下是如何使用pandas读取包含Covid-19数据的csv文件的示例。importpandasaspd#读取countries_data文件以及read_csv中的位置function.countries_df=pd.read_csv('C:/Users/anmol/Desktop/Courses/PythonforDataScience/Code/countries_data.csv')#first5rowsofthedataframecountries_df.head()下面是countries_df.head()的输出，我们可以用它来查看dataframe的前5行：2.汇总统计接下来就是了解数据通过查看数据汇总，如NewConfirmed、TotalConfirmed等数值列，如counts、mean、standarddeviation、quantiles和countrycodes等分类列，出现值最高的countries_df.describe()使用describe函数，我们可以得到数据集连续变量的汇总，如下图：在describe()函数中，我们可以设置参数"include='all'"来得到连续变量和分类变量的汇总countries_df.describe(include='all')3.数据选择和f过滤分析其实不需要数据集的所有行和列，只需要选择感兴趣的列，根据问题过滤一些行即可。例如，我们可以使用以下代码选择列Country和NewConfirmed：countries_df[['Country','NewConfirmed']]我们还可以按国家/地区过滤数据，使用loc我们可以根据这样的值过滤列:countries_df.loc[countries_df['Country']=='UnitedStatesofAmerica']4.聚合计数、总和、均值等数据聚合是数据分析中最常执行的任务之一。我们可以使用聚合来查找各国新确诊病例的总数。使用groupby和agg函数执行聚合。countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})5.Join使用Join操作将2个数据集合并为一个数据集。例如：一个数据集可能包含不同国家的Covid-19病例数，而另一个数据集可能包含不同国家的经纬度信息。现在我们需要将这两条信息结合起来，然后我们就可以进行join操作了，如下所示)#joiningthe2dataframe:countries_dfandcountries_lat_lon#语法：pd.merge(left_df,right_df,on='on_column',how='type_of_join')joined_df=pd.merge(countries_df,countries_lat_lon,on='CountryCode',how='inner')joined_df6,内置函数学习min(),max(),mean(),sum()等数学内置函数，对进行不同的分析很有帮助。我们可以通过调用它们将这些函数直接应用于数据框，这些函数可以在列上独立使用，也可以在聚合函数中使用，如下所示：:6,631,899#找出不同国家新确诊病例的总和countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})#Output#NewConfirmed#Country#Afghanistan75#Albania168#Algeria247#Andorra0#Angola537.用户自定义函数我们自己写的函数就是用户自定义函数。我们可以在需要的时候调用这个函数来执行这些函数中的代码。例如，我们可以创建一个函数来添加2个数字，如下所示：#用户定义的函数是使用'def'关键字创建的，后跟函数定义-'addition()'#和2个参数num1和num2defaddition(num1,num2):returnnum1+num2#callingthefunctionusingfunctionnameandprovingtheargumentsprint(addition(1,2))#output:38.PivotPivot将一行中的唯一值转换成多个新的列，这是非常棒的数据加工技术。在Covid-19数据集上使用pivot_table()函数，我们可以将国家名称转换为单独的新列：#使用pivot_table将Country列内的值转换为单独的列并#填充与这些列对应的值withnumericvariable-NewConfimedpivot_df=pd.pivot_table(countries_df,columns='Country',values='NewConfirmed')pivot_df9，遍历数据框经常需要遍历数据框的索引和行，我们可以使用iterrows函数遍历数据框：#iteratingovertheindexandrowofadataframeusingiterrows()functionforindex,rowincountries_df.iterrows():print('Indexis'+str(index))print('Countryis'+str(row['Country']))#输出：#Indexis0#CountryisAfghanistan#Indexis1#Country是阿尔巴尼亚#......10。字符串操作很多时候我们处理数据集中的字符串列，在这种情况下，了解一些基本的字符串操作很重要。例如如何将字符串转换为大写、小写以及如何找到字符串的长度。#countries_df['Country_upper']=countries_df['Country'].str.upper()#countrycolumntolowercasecountries_df['CountryCode_lower']=countries_df['CountryCode'].str.lower()#finding国家列中的字符长度countries_df['len']=countries_df['Country'].str.len()countries_df.head()

上一篇：AI制药来了！新药研发或告别“十年磨一剑”

下一篇：人工智能行业薪酬曝光，该转行了

十个Python技巧，涵盖90%的数据分析需求！相关文章