当前位置: 首页 > 后端技术 > Python

Python大讲:python操作excel系列——数据清洗

时间:2023-03-25 20:40:06 Python

python操作excel的时候,上篇文章提到了数据的读取、插入、简单分析,还有一个很重要的一点就是数据清洗。那么什么是数据清洗呢?说白了就是去除数据文本中的垃圾值,比如:已有的空值、多余的空格、数据格式等处理。1.导入python库并读取excel数据#导入pandas库importpandasaspd#read_excel()读取excel数据#DataFrame()将读取到的数据转换成DataFrame数据df=pd.DataFrame(pd.read_excel('data.xlsx'))2、数据清洗(去除空值)#dropna()函数去除df数据表中所有有空值的行df.dropna(how='any')#mean()函数计算age字段averagevalueofthecolumnage_pre=df['age'].mean()#使用fillna()函数填充已有的空值,将age_pre的值填充到字段df['age']的空值中.fillna(age_pre)3、数据清洗(清除字段中的空格)#清除字段中的空格df['name']=df['name'].map(str.strip)4、数据清洗(对于acolumnRename)#rename()函数对列进行重命名df.rename(columns={'name':'name_new'})5、数据清洗(去除一列中的重复值)#从前到后查找一列Theduplicatevaluein,如果存在则清除后面出现的重复值df['name'].drop_duplicates()#从后往前查找某一列中的重复值,如果存在则清除重复值df['city'].drop_duplicates(keep='last')#之前出现的那个两者的顺序正好相反6、数据清洗(数据值替换)#替换某列中的具体值df['name'].replace('laow','lwsbc')老王硕编程本系列请关注>>>版权声明:本文为CSDN博主“老王硕编程”原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接及本声明。