我们在做一些数据统计或者分析的时候,有时候会接触到Execl格式或者Word格式的文件。对于Execl格式的数据提取和分析,我们在之前的文章中分享了一些非常好用的第三方Python库。本文主要介绍如何使用Pythonpython-docx模块提取Word文件中的文本信息和表格数据。python-docx安装本文python-docx安装在Windows10系统中安装,在Python3环境下使用pip。演示文本为了便于理解,我们以python-docx.docx文件为例,演示如何使用Python提取文本数据和表格数据,并开发自定义函数以字典形式提取内容。python-docx.docx文件内容如下:在使用python-docx读取word文档中的文字之前,我们先了解一下python-docx模块的几个概念。Document对象,代表一个Word文档。表示Word文档中段落的Paragraph对象。Paragraph对象的文本属性表示段落中的文本内容。提取docx文件中的文本信息使用python-docx提取docx文件中的文本数据。Python实现代码如下:如上,我们逐行提取python-docx.docx文件中的文本信息,存入字典中。字典的key是行号,Value是文本信息。执行上述代码,输出结果如下:提取docx文件中的表格数据。使用python-docx提取docx文件中的表格数据。Python实现代码如下:如上,我们将python-docx.docx文件中的表单信息按行提取出来,存储在一个列表中。列表的每个元素都是一个表的数据,数据结构是一个字典。上面代码输出结果如下:向docx文件写入数据,我们也可以使用python-docx模块实现docx文件的数据写入,比如标题、字号、引用、列表、图片插入等.由于后面的代码注释中描述的比较详细,这里就不过多介绍了。代码如下:执行以上代码,写入数据并保存到testops-docx.docx文件中,内容如下:提取包含指定关键字的文本。基于以上自定义封装函数extract_text、extract_form,结合re模块,可以实现提取包含关键词的文本内容。代码实现如下:如上,我们实现了提取docx文本中包含指定内容的文本信息,并输出该内容所在的行。执行上面的代码,输出为:
