当前位置: 首页 > 科技观察

教你用Python读Excel

时间:2023-03-18 18:17:26 科技观察

01。pandas.read_excel接口的语法如下:pd.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrows=None,na_values=None,keep_default_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,convert_float=True,mangle_dupe_cols=True,**kwds)02文件内容io为第一个参数,没有默认值,不能为空。根据Python的语法,第一个参数传递时可以留空。可以传入本地文件名或远程文件的URL:#string、byte、Excel文件、xlrd.Book实例、路径对象或类文件对象#localrelativepathpd.read_excel('data/data.xlsx')#注意目录级别pd.read_excel('data.xls')#如果文件和代码文件在同一个目录#本地绝对路径pd.read_excel('/user/gairuo/data/data.xlsx')#使用urlpd.read_excel('https://www.gairuo.com/file/data/dataset/team.xlsx')和read_csv是一样的。需要注意的是,Mac和Windows的路径写法是不一样的。03表单sheet_name可以指定从Excel文件中读取哪一张,不指定则默认读取第一张。#String,integer,list,None,默认为0pd.read_excel('tmp.xlsx',sheet_name=1)#第二个sheetpd.read_excel('tmp.xlsx',sheet_name='summarytable')#按名称thesheet#读取名为Sheet5的第一张和第二张sheet,返回由df组成的字典dfs=pd.read_excel('tmp.xlsx',sheet_name=[0,1,"Sheet5"])dfs=pd.read_excel('tmp.xlsx',sheet_name=None)#allsheetdfs['Sheet5']#读取时按sheetname04表头数据的header参数为header,不指定则默认第一个OK。#整数和整数的列表,默认为0pd.read_excel('tmp.xlsx',header=None)#没有表头pd.read_excel('tmp.xlsx',header=2)#第三行是表格Headerpd.read_excel('tmp.xlsx',header=[0,1])#双层表头,多层索引05列名使用names来指定列名,也就是表头的名字。如果未指定,则默认为标头的名称。#顺序,默认是Nonepd.read_excel('tmp.xlsx',names=['name','age','grade'])pd.read_excel('tmp.xlsx',names=c_list)#传入列表变量#没有header,需要设置为Nonepd.read_excel('tmp.xlsx',header=None,names=None)06其他参数与pandas.read_csv中的同名参数作用相同,如果想要使用只有pandas.read_csv才有的参数,可以考虑将数据保存为CSV文件,因为CSV文件比较常用,读取数据速度快,处理方式丰富。Python读取CSV文件操作详解可戳:史上最全!用Pandas读取CSV,就看这篇文章。07小结本文介绍pandas.read_excel相对于pandas.read_csv的参数功能。由于日常工作中常用到Excel文件,因此需要熟练掌握Excel的数据读取功能。另外对于一些量比较小的Excel数据文件,在做临时数据处理的时候可以使用pd.read_clipboard()复制读取,非常方便。