当前位置: 首页 > 后端技术 > Python

pdf转word用python也能轻松搞定

时间:2023-03-25 23:26:50 Python

大家在日常的工作学习过程中都会遇到一个问题,就是将pdf中的文本内容转换成word形式,即从只读形式转为读写形式.面对这种情况,我们大多使用在线工具,但在线工具鱼龙混杂,难以满足我们的需求。今天小编就带领大家使用python实现如何将pdf内容转换为word文档。同时,我们也会将pdf中的图片提取出来,保存在我们指定的文件夹中。01、文本提取首先我们要做的就是提取pdf中的文本,如下图:pdf中的文本只允许只读,不能更改,所以我们要做的就是将pdf信息中的文字提取出来,然后将提取出来的文字写入到word文件中,这样我们就可以进行后续的改写了。对于文本提取,我们使用pdfminer函数库,其主要功能如下图所示:程序首先使用get_content_from_pdf函数返回从pdf中提取的数据;然后创建一个PDFResourceManager对象保存共享数据内容,一个PDFPageAggregator对象将资源对象处理成我们需要的格式,PDFPageInterpreter用于处理页面内容;程序中的page_index是用来帮助我们设置需要提取哪些页面的内容,对于我们需要提取的页面,通过创建的PDFPageInterpreter对象来解释页面信息;最后通过PDFPageAggregator对象处理数据;此处的布局包含从页面解析的各种对象。包括文字、图片等信息。但是小编发现pdfminer对于图片提取的效果很差,所以对于后面的图片提取,小编使用fitz库进行单独处理,得到了不错的图片提取效果。说了这么多,我们来看看文本处理的结果。我们的pdf是一个两页的pdf文档。我们只让程序提取第一页的文本。从上图可以看出,程序完全没有错误地提取出第一页的文字。02.图片提取结合文字处理,我们来看看如何从pdf中提取图片并保存到本地。对于图像提取,程序如下图所示:在上面的程序中,我们使用fitz库提取pdf文档中的对象,然后通过字符串匹配判断对象是否为图像类型。如果没有,我们直接跳过它。就是这样。如果判断对象是图片类型,我们可以通过创建PixMap对象来提取图片,保存到我们指定的路径中。结果如下图所示:从上图可以看出,我们已经正确地提取了图片,从而达到了我们提取图片的目的,小编也尝试了提取多张图片,没有任何压力。只需几秒即可完成pdf文档所有图片的提取。以上就是小编为大家带来的pdf转word的提取。经过讲解,我们不仅完成了pdf文档中文字的提取,还完成了图片的提取,大大减轻了我们的工作压力,提高了工作效率,如果这篇文章对你有帮助,离开前请注意~