使用Python从PDF文件中提取数据

时间：2023-03-13 12:03:47 科技观察

简介数据是数据科学中任何分析的关键，大多数分析中使用的最常见的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而，由于可移植文档格式(PDF)文件是最常用的文件格式之一，每个数据科学家都应该知道如何从pdf文件中提取数据并将数据转换为“csv”等格式，以用于分析或模型构建。在本文中，我们将重点介绍如何从pdf文件中提取数据表格。类似的分析可用于从PDF文件中提取其他类型的数据，例如文本或图像。我们将解释如何从pdf文件中提取数据表并将其转换为适合进一步分析和模型构建的格式。我们将举一个例子。示例：使用Python从PDF文件中提取表格a)将表格复制到Excel并另存为table_1_raw.csv数据以一维格式存储，必须重新整形、清理和转换。b)导入必要的库importpandasaspdimportnumpyasnpc)导入原始数据并重新定义数据))column_names=df2[0:1].values[0]df3=df2[1:]df3.columns=df2[0:1].values[0]df3.head()d)使用字符串处理工具数据纠缠我们从上表中注意到，x5、x6、x7列是用百分比表示的，所以需要去掉百分号(%)：df4['x5']=list(map(lambdax:x[:-1],df4['x5'].values))df4['x6']=list(map(lambdax:x[:-1],df4['x6'].values))df4['x7']=list(map(lambdax:x[:-1],df4['x7'].values))e)将数据转换为数字形式我们注意到列x5、x6、x7列的values数据类型是string，所以我们需要像这样将它们转换为数值型数据：df4['x5']=[float(x)forxindf4['x5'].values]df4['x6']=[float(x)forxindf4['x6'].values]df4['x7']=[float(x)forxindf4['x7'].values]f)查看转换后的最终形式datadf4.head(n=5)g)导出最终数据到csv文件df4.to_csv('table_1_final.csv',index=False)

上一篇：5G自动驾驶是什么样的？韩国的测试结果显示，

下一篇：一款仿iOS8iMessage的图片选择器

使用Python从PDF文件中提取数据相关文章