Pandas是一个建立在NumPy之上的库,可以理解为NumPy在数据处理方面的增强版,Pandas也是一个开源项目。它基于Cython,因此读取和处理数据的速度非常快,也可以轻松处理浮点数据(表示为NaN)和非浮点数据中的缺失数据。本文基本数据集操作主要介绍CSV和Excel的读写方法,基本数据处理主要介绍缺失值和特征提取,高级DataFrame操作主要介绍函数和排序等方法。基本数据集操作(1)读取CSV格式的数据集pd.DataFrame.from_csv("csv_file")或者:pd.read_csv("csv_file")(2)读取Excel数据集pd.read_excel("excel_file")(3)写入直接将DataFrame转为CSV文件,如下使用逗号分隔,不加索引:df.to_csv("data.csv",sep=",",index=False)(4)数据集基本特征信息df.info()(5)基本数据集统计print(df.describe())(6)打印表格中的数据框OutputDataFrametoatable:print(tabulate(print_table,headersheaders=headers))当“print_table”为列表时,列表元素为仍然是新的列表,而“headers”是由标题字符串组成的列表。(7)列出所有列的名称df.columns基本数据处理(8)去除缺失数据df.dropna(axis=0,how='any')返回一个DataFrame,其中包含任意NaN值的给定轴是removed,选择how="all"将删除给定轴的所有NaN元素。(9)替换缺失数据df.replace(to_replace=None,value=None)使用value值替换DataFrame中的to_replace值,其中value和to_replace都需要我们赋不同的值。(10)检查空值NaNpd.isnull(object)检查缺失值,即数值数组中的NaN和目标数组中的None/NaN。(11)删除特征df.drop('feature_variable_name',axis=1)axis选择0表示行,选择表示列。(12)将目标类型转换为浮点类型pd.to_numeric(df["feature_name"],errors='coerce')将目标类型转换为数值以进行进一步的计算,在本例中为字符串。(13)将DataFrame转换为NumPy数组df.as_matrix()(14)获取DataFrame的前"n"行df.head(n)(15)通过特征名获取数据df.loc[feature_name]DataFrame操作(16)pairDataFrame使用函数将DataFrame中“height”行的所有值乘以2:df[“height”].apply(*lambda*height:2*height)或:defmultiply(x):returnx*2df["height"].apply(multiply)(17)重命名行以下代码将DataFrame的第三行重命名为“size”:df.rename(columns={df.columns[2]:'size'},inplace=True)(18)获取某行的唯一实体下面的代码将获取“name”行的唯一实体:df["name"].unique()(19)访问子DataFrame如下代码会从DataFrame的“name”和“size”中提取选中的行:new_df=df[[“name”,“size”]](20)汇总数据信息#Sumofvaluesinadataframedf.sum()#Lowestvalueofadataframedf.min()#Highestvaluedf.max()#Indexofthelowestvaluedf.idxmin()#Indexofthehighestvaluedf.idxmax()#Statisticalsummaryofthedataframe,withquartiles,median,etc.df.describe()#Averagevaluesdf.mean()#Medianvaluesdf.median()#Correlationbetweencolumnsdf.corr()#Togetthesevaluesforonlyonecolumn,justselectitlikes.median()(21)对数据进行排序df.sort_values(ascending=False)(22)booleanindex以下代码将过滤名为“size”的行,只显示值为5的行:df[df["size"]==5](23)选择特定值下面的代码会选择“size”列和***行的值:df.loc([0],['size'])原文链接:https://towardsdatascience.com/23-great-pandas-codes-for-data-scientists-cca5ed9d8a38【本文为栏目组织《机器之心》原创文章,微信公众号《机器之心(id:almosthuman2014)》】点此查看作者更多好文
