大家好,我是菜鸟小哥!今天给大家分享一个非常实用的Python程序。遇到的困惑很多朋友无论是在学校还是在工作中,都会遇到一个问题,就是将PPT中的文字提取出来保存在Word中,可以方便自己阅读或者将文字打印出来。但很多时候,朋友们只能通过复制粘贴的方式,将PPT中的文字一一提取出来。这种操作方式无疑是非常低效的。今天菜鸟给大家带来一个新的方法,用程序批量提取PPT中的文字,保存到word文档中。让我们来看看。1.合适的场景比如我有这么一个PPT内容,里面有很多的文字和图片。我对文字比较感兴趣,尤其是论文的ppt或者一些重要的学术报告。文本需要被提取和分析。我举一个简单的PPT页面的例子:可以看到,上图中的PPT包含了一些文字和图片的内容信息,而我只是想把文字提取出来。事实上,这可以用Python轻松完成。来看看最后的效果:效果还不错,其实很简单,一起来看看怎么做吧。2、在程序的设计上,我们主要使用了python-pptx库和python-docx库。它们分别用于处理PPT文件和word文件。可以直接用pip3安装。整个程序非常短小精悍。核心代码只需要六行。程序如下图所示:代码其实很短。为了让大家更好的理解这个程序,大家可以结合下图来给大家一一讲解。在程序中,我们一共使用了3层循环来处理:1)。第一层的for循环用于循环遍历每一页的幻灯片;2).第二个循环判断每张幻灯片的Shape,然后判断页面是否包含文本框,如果有文本框,则获取文本框并命名为text_frame。3).第三个for循环遍历文本框中的所有段落,提取文本保存在word中。遍历整个PPT文件后,将提取的文字信息全部保存到本地word文档中。效果如下图所示:上图中的PPT文件包含四张带文字的幻灯片。运行程序后,文本提取结果如下图所示。以上就是菜鸟小哥今天为大家带来的自动化案例分享。只需几行代码,就可以大大提高您的工作效率。让我们使用该程序快速提取它。
