当前位置: 首页 > 后端技术 > Python

办公自动化:轻松提取PDF页面数据生成Excel文件(代码练习)!

时间:2023-03-25 20:42:35 Python

发现网上有一个专门做文档格式转换的网站,不过只要是会员就可以了。今天来做一个PDF转Excel文档的代码练习。我希望你喜欢它。哈哈,话不多说,马上进入实战。【阅读全文】首先一如既往的介绍一下需要用到的第三方库。importpdfplumber#专门处理PDF文档格式的文件对象importpandasaspd#数据处理库,对常见的DtaFrame,Series数据对象进行处理,然后提取对应的PDF数据存储在DataFrame数据对象中。#打开PDF文件,获取PDF数据文件对象pdf_obj=pdfplumber.open('data.pdf')#这里以第一页的PDF数据为例page_1=pdf_obj.pages[0]#从第一页开始获取的页面从数据中提取表格数据data_table=page_1.extract_table()#将提取的数据表格转换成DataFrame数据对象data_frame=pd.DataFrame(data_table)#打印并查看DataFrame数据print(data_frame)得到DataFrame数据后对象,需要对数据进行处理,请参考上一篇DataFrame数据处理相关知识点。最后将准备好的DataFrame数据对象保存成Excel格式的数据文件就大功告成了。writer=pd.ExcelWriter('C:\\data.xlsx')#设置文档路径data_frame.to_excel(writer,index=None,startrow=1,encoding='utf-8',sheet_name='datastatistics')#设置Excel对象ws=writer.sheets['datastatistics']#写入工作表的名称ws.write_string(0,0,'我是标题')#添加标题writer.save()#保存【上一篇精彩】】●sched模块是一款非常好用的轻量级定时任务神器调度器!●不用命令行打包成exe,有??人写了UI应用,可视化UI界面打包python程序的方法!●发现一个秘密:python3.6以后,字典变成了有序集,我再次验证!●你能记住这么多内置函数吗?python的68个内置函数汇总!●必须知道的文件操作对象File,是python文件读写操作的利器!●你不知道的CS模式流程管理工具,状态监控、项目启停一目了然!●如何将python应用程序作为docker镜像运行?●python-celery是分布式异步任务处理和任务调度的插件!●Python远程服务操作工具:fabric、远程命令、本地命令、服务器操作工具!●办公自动化:Python-win32com自动将word文档转为pdf格式!●妙用pandas数据统计插件的连接函数concat(),灵活处理数据对象!●You-get是一款非常棒的python插件,单行命令即可下载,推荐使用命令行下载工具!●python常用转义字符串总结:不同的转义字符,如何取消转义字符的影响?●如何使用python完成对WebService的调用?安利suds-py3插件!