当前位置: 首页 > 后端技术 > Python

pandas数据清洗

时间:2023-03-25 20:13:20 Python

读取csv文件df=pd.read_csv(self,csvdir,sheet_name=0)替换所有空值df=df.fillna("此处未填写")特殊字符替换df["产品系列"].replace(regex={r"\(.+":"",r"(.+":"",r"\[.+":""},inplace=True)df["产品线".replace(regex={r"/":""},inplace=True)拆分日期得到月份df["维护月份"]=df["订单日期"].str.split(r"/",expand=True)[1]将df["fault"].replace(regex=dict2,inplace=True)替换为正则+字典,将不常见的类别替换为其他df["faultclassification"]=np.where(df.faultclassification.isin(faultcategory),df["faultclassification"],"otherfaults")删除列表中包含的列df.drop(droplist,axis=1,inplace=True)客户数为小于或等于5df["客户分类1"]=np.where(df.CustomerSourceCount.isin(range(5)),"EndUser",df["CustomerSourceCount"])