当前位置: 首页 > 后端技术 > Python

三行Python代码轻松提取PDF表格数据

时间:2023-03-26 12:57:39 Python

从PDF表格中获取数据是一件很痛苦的事情。不久前,一位开发者提供了一款名为Camelot的工具,只需三行代码即可从PDF文件中提取表格数据。PDF文件是一种非常常见的文件格式,通常用于文档的官方电子副本。可以很好地固定不同的排版格式,形成清晰美观的展示效果。然而,对于想要从PDF中提取信息,尤其是表格的人来说,PDF是一场噩梦。大量的学术报告、论文、分析文章都使用PDF来展示表格数据,但是如果要直接从表格中复制数据会很麻烦。不久前,有开发者提供了一款可以从文本PDF中提取表格信息的工具——Camelot,可以直接将大部分表格转为PandasDataframe。什么是Camelot根据项目介绍,Camelot是一个用于从PDF文件中提取表格数据的Python工具。具体来说,用户可以像使用Pandas一样打开一个PDF文件,然后使用这个工具提取表格数据,最后指定输出格式(比如csv文件)。代码示例项目提供的PDF文件如图所示,假设用户需要在这些文本之间提取表2-1中的信息。PDF文件。我们需要提取表格2-1。使用Camelot提取表格数据的代码如下:>>>importcamelot>>>tables=camelot.read_pdf('foo.pdf')#类似Pandas打开CSV文件的形式>>>tables[0]。df#得到一个pandasDataFrame!>>>tables.export('foo.csv',f='csv',compress=True)#json,excel,html,sqlite,可以指定输出格式>>>tables[0].to_csv('foo.csv')#to_json,to_excel,to_html,to_sqlite,将数据导出为文件>>>tables>>>tables[0]#获取输出格式>>>tables[0].parsing_report{'accuracy':99.02,'whitespace':12.24,'order':1,'page':1}下面是输出结果。对于合并的单元格,Camelotextracts做空行处理是一种安全的方法。安装方法项目作者提供了三种安装方法。首先,您可以使用最简单的Conda安装。condainstall-cconda-forgecamelot-py最流行的安装方式是使用pip安装。pipinstallcamelot-py[cv]也可以从项目中克隆代码并从源代码安装它。gitclonehttps://www.github.com/camelot-dev/camelotcdcamelotpip安装“.[cv]”

猜你喜欢