当前位置: 首页 > 后端技术 > Python

操作DOCX文件

时间:2023-03-26 14:53:30 Python

简介格式类型将doc转为docx文件读写docx文件简介Word是一种非常常见的文件格式,可以使用python来操作Word文档。格式类型Word有两种文档类型,文件扩展名为.doc和.docx。前者是Office2003的格式,后者是Office2007之后推出的新格式,一般来说我推荐大家使用新版,但是很多时候难免会用到旧版。Convertdoctodocxfile这是linux上用的,需要用soffice。如果需要在windows上操作,推荐使用win32com。这里有参考链接。importglobimportsubprocessfrompathlibimportPath"""使用soffice将doc转docx"""base_dir=Path(__file__).resolve().parentprint(base_dir)doc_list=glob.glob(base_dir.as_posix()+"/**/*.doc",recursive=True)print(doc_list)fordoc_list中的doc:subprocess.call(["soffice","--headless","--convert-to","docx","--outdir",Path(doc).parent.as_posix(),doc,])doc_list=glob.glob(base_dir.as_posix()+"/**/*.docx",recursive=True)print(doc_list)s读写docx文件这里推荐使用python-docx.pipinstallpython-docx简单使用fromdocximportDocumentdoc=Document(doc_path)#read取表列表table_list=doc.tables#读取段落paragraph_list=[x.text.strip()forxindoc.paragraphsifx.text.strip()]更多内容请参考官方文档。总结现在,我们可以使用python将doc转换为docx文件,并从中读取内容。