当前位置: 首页 > Web前端 > HTML

学习OfficeOpenXML文件格式的自定进度方法简介

时间:2023-03-28 15:13:00 HTML

MicrosoftOffice全球约有10亿人使用,DOCX格式是办公室之间交换文档文件最流行的事实标准。虽然DOCX是一种复杂的格式,但包括ABAP在内的许多开发人员更喜欢手动解析它以完成更简单的任务,例如索引、转换为TXT和其他较小的修改。PDF格式不能被视为docx文件的竞争对手,因为PDF无法编辑并且不包含完整的文档结构,因此它们只能进行有限的局部更改,例如水印、签名等。这就是为什么大多数商业文档都是在DOCX格式;目前还没有好的替代品可以替代它。OpenOfficeXML的ECMA规范虽然有5000多页的庞大手册,但如果我们只想通过ABAP语言操作docx文件,就不需要把5000多页的文档全部翻一遍。理解该格式的最佳方法是使用MSWord创建一个简单的单字文档,并观察编辑该文档如何改变底层XML。DOCX文件是XML文件的ZIP存档。如果你新建一个空的MicrosoftWord文档,在里面写上“Test”,然后解压它的内容,你会看到如下的文件结构:、字体表等,采用XML格式。DOCX中的所有文件都是XML文件,即使是具有“.rels”扩展名的文件也是如此。首先,让我们删除未使用的内容并关注包含主要文本元素的document.xml。删除文件时,请确保已从其他xml文件中删除对该文件的所有关系引用。下面是关于我如何清除对app.xml和core.xml的依赖项的代码差异示例。如果您有任何未解决/缺失的引用,MSWord将认为该文件已损坏。