pdf转word用python也能轻松搞定

时间：2023-03-25 23:26:50 Python

大家在日常的工作学习过程中都会遇到一个问题，就是将pdf中的文本内容转换成word形式，即从只读形式转为读写形式.面对这种情况，我们大多使用在线工具，但在线工具鱼龙混杂，难以满足我们的需求。今天小编就带领大家使用python实现如何将pdf内容转换为word文档。同时，我们也会将pdf中的图片提取出来，保存在我们指定的文件夹中。01、文本提取首先我们要做的就是提取pdf中的文本，如下图：pdf中的文本只允许只读，不能更改，所以我们要做的就是将pdf信息中的文字提取出来，然后将提取出来的文字写入到word文件中，这样我们就可以进行后续的改写了。对于文本提取，我们使用pdfminer函数库，其主要功能如下图所示：程序首先使用get_content_from_pdf函数返回从pdf中提取的数据；然后创建一个PDFResourceManager对象保存共享数据内容，一个PDFPageAggregator对象将资源对象处理成我们需要的格式，PDFPageInterpreter用于处理页面内容；程序中的page_index是用来帮助我们设置需要提取哪些页面的内容，对于我们需要提取的页面，通过创建的PDFPageInterpreter对象来解释页面信息；最后通过PDFPageAggregator对象处理数据；此处的布局包含从页面解析的各种对象。包括文字、图片等信息。但是小编发现pdfminer对于图片提取的效果很差，所以对于后面的图片提取，小编使用fitz库进行单独处理，得到了不错的图片提取效果。说了这么多，我们来看看文本处理的结果。我们的pdf是一个两页的pdf文档。我们只让程序提取第一页的文本。从上图可以看出，程序完全没有错误地提取出第一页的文字。02.图片提取结合文字处理，我们来看看如何从pdf中提取图片并保存到本地。对于图像提取，程序如下图所示：在上面的程序中，我们使用fitz库提取pdf文档中的对象，然后通过字符串匹配判断对象是否为图像类型。如果没有，我们直接跳过它。就是这样。如果判断对象是图片类型，我们可以通过创建PixMap对象来提取图片，保存到我们指定的路径中。结果如下图所示：从上图可以看出，我们已经正确地提取了图片，从而达到了我们提取图片的目的，小编也尝试了提取多张图片，没有任何压力。只需几秒即可完成pdf文档所有图片的提取。以上就是小编为大家带来的pdf转word的提取。经过讲解，我们不仅完成了pdf文档中文字的提取，还完成了图片的提取，大大减轻了我们的工作压力，提高了工作效率，如果这篇文章对你有帮助，离开前请注意~

上一篇：frida钩子模式

下一篇：python+requestsget和post方法接口测试

pdf转word用python也能轻松搞定相关文章