构造原始数据1#-*-coding:UTF-8-*-23importpandasaspd45data_dict={'first_col':[1,2,3,4],'second_col':[5,6,7,8]}67df=pd.DataFrame(data_dict)iloc()切片函数1#iloc()函数,切片和索引操作(数据切片只能按索引提取,不能按字符串提取)23#返回所有第一行Column45print(df.iloc[1,:])67#所有行的第0列和第1列89print(df.iloc[:,[0,1]])1011#结合使用,某列前两行数据可以任意组合使用1213print(df['first_col'].iloc[:2])loc()slice函数1#loc()函数slice和index(可以按字符串切片提取)23#extractWhichrowsofcertaincolumns45print(df.loc[0:1,['first_col','second_col']])67#从一列提取哪些行数据到另一列(这样可以选择一个数据字段)89print(df.loc[0:1,'first_col':'second_col'])#表示选择第一行和第二行,数据字段从first_col列到second_col列isin()过滤数据行1#过滤掉某列包含哪些值的数据行,如下过滤出first_col列2中的值1和23print(df[df['first_col'].isin([1,2])])45#first_colsecond_col6#0157#12689#过滤掉某列不包含哪些值的数据行,如下过滤掉first_col列中不包含1和2的值(反选)1011print(df[~df['first_col'].isin([1,2])])1213#first_colsecond_col14#23715#348缺失值处理1#缺失值处理,fillna()functiontofillmissingvalues23#fillmissingvalueswithmean45print(df.fillna(df.mean()))67#fillmissingvalueswith089print(df.fillna(0))1011#指定某几列删除缺失值1213print(df.dropna(subset=['first_col','second_col']))drop_duplicates()去重1#去重处理,drop_duplicates()函数23#删除first_colcolumnwithduplicaterows,保留第一次出现的行45df=df.drop_duplicates(subset='first_col',keep='first')67print(df)89#删除出现在first_colcolumnandkeepthelastrowLine1011df=df.drop_duplicates(subset='first_col',keep='last')1213print(df)1415#删除first_col列重复的行,不保留所有删除的1617df=df.drop_duplicates(subset='first_col',keep=False)1819print(df)drop()去重1#删除Nan值为3df=df.dropna(axis=0)的第2行45#删除Nan值为7df=df的第6列。dropna(axis=1()1617#删除行一致g到索引1819df=df.drop(row_list)进入微信公众号【Python集中营】,专注python技术栈、数据获取、交流社区、干货分享,期待你的加入~
