简介数据是数据科学中任何分析的关键,大多数分析中使用的最常见的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而,由于可移植文档格式(PDF)文件是最常用的文件格式之一,每个数据科学家都应该知道如何从pdf文件中提取数据并将数据转换为“csv”等格式,以用于分析或模型构建。在本文中,我们将重点介绍如何从pdf文件中提取数据表格。类似的分析可用于从PDF文件中提取其他类型的数据,例如文本或图像。我们将解释如何从pdf文件中提取数据表并将其转换为适合进一步分析和模型构建的格式。我们将举一个例子。示例:使用Python从PDF文件中提取表格a)将表格复制到Excel并另存为table_1_raw.csv数据以一维格式存储,必须重新整形、清理和转换。b)导入必要的库importpandasaspdimportnumpyasnpc)导入原始数据并重新定义数据))column_names=df2[0:1].values[0]df3=df2[1:]df3.columns=df2[0:1].values[0]df3.head()d)使用字符串处理工具数据纠缠我们从上表中注意到,x5、x6、x7列是用百分比表示的,所以需要去掉百分号(%):df4['x5']=list(map(lambdax:x[:-1],df4['x5'].values))df4['x6']=list(map(lambdax:x[:-1],df4['x6'].values))df4['x7']=list(map(lambdax:x[:-1],df4['x7'].values))e)将数据转换为数字形式我们注意到列x5、x6、x7列的values数据类型是string,所以我们需要像这样将它们转换为数值型数据:df4['x5']=[float(x)forxindf4['x5'].values]df4['x6']=[float(x)forxindf4['x6'].values]df4['x7']=[float(x)forxindf4['x7'].values]f)查看转换后的最终形式datadf4.head(n=5)g)导出最终数据到csv文件df4.to_csv('table_1_final.csv',index=False)
