Office 2010 中的 XML 文件格式概述

 

适用于: Office 2010

上一次修改主题: 2016-11-29

Microsoft Office 2010 和 2007 Microsoft Office system 支持稳固的 XML 文件格式,这些格式简化了 Office 应用程序和企业业务系统间的数据交换。这些 XML 文件格式基于开放标准,可以从不同数据源快速创建文档,并加快文档合成、数据挖掘和内容重用速度。

2007 Office system 支持 ECMA-376 Office Open XML 格式标准,该标准后来提交到 ISO/IEC,并在 2008 年年末作为 ISO/IEC 29500 Office Open XML 格式标准发布。Office 2010 为 ECMA 376 提供读支持,为 ISO/IEC 29500 提供读/写支持,为 ISO/IEC 29500 Strict 提供读支持。

可从 ISO/IEC 获取 ISO/IEC 29500 Office Open XML 格式文档,从 Ecma International 获取 ECMA-376 文档。有关 Office 2010 和 2007 Office system 中如何支持这些格式的详细信息,请参阅 MSDN 上的 Microsoft Office 文件格式文档(该链接可能指向英文页面) (https://go.microsoft.com/fwlink/?linkid=191143\&clcid=0x804)(该链接可能指向英文页面)。

本文内容:

  • Open XML 格式的优点

  • Open XML 格式的结构

Open XML 格式的优点

Open XML 格式为开发人员、IT 专业人员和用户提供若干项优点。这些优点包括:

  • 压缩文件格式 文档会自动压缩,最多比原先缩小 75%。

  • 改进的损坏文件恢复 模块化数据存储允许打开文件,即使文件中的某个组件(如图表或表)损坏也是如此。

  • 更安全的文档 嵌入代码(如 OLE 对象或 Microsoft Visual Basic for Applications (VBA) 代码)存储在文件中的单独节中,以便可以轻松识别以进行特殊处理。IT 管理员可以阻止包含不需要的宏或控件的文档。这将有助于使文档更安全,用户在打开文档时更放心。

  • 更方便的集成 开发人员可以直接访问文件中的特定内容,如图表、注释和文档元数据。

  • 透明度和改进的信息安全 可以秘密共享文档,因为可以轻松标识和删除个人身份信息及敏感业务信息(如用户名、批注、修订和文件路径)。

  • 兼容性 通过安装 Microsoft Office 兼容包,Microsoft Office 2000、Microsoft Office XP 和 Microsoft Office 2003 版本的用户可以用一种新的 XML 格式打开、编辑和保存文档。

Open XML 格式的结构

Open XML 格式的基本结构包括以下五个元素,我们将在随后几节中详细介绍。

  • 开始部件 层次结构中位置最高的部件。

  • XML 部件 由包含文件内容的 XML 所组成的文件或文件夹。

  • 非 XML 部件 不属于 XML 的部件,通常为图像或 OLE 对象。

  • 关系部件 一种部件类型,通常指向其他部件,用来定义部件结构的关系层次。

  • ZIP 包 将部件捆绑到一个文件中。

开始部件

开始部件是属于关系部件的一个 XML 部件,可以被视为位置最高的部件,用于确定文件类型。例如,如果核心容器的名称为 WordDoc,则文件扩展名是 .docx。

XML 部件

当 OfficeXML 格式文件保存在 Office 2010 或 2007 Office system 中时,该文件被分割为描述整个文件的一组逻辑部件。对于 Microsoft Word,将该文件分成这些部件后,用户可以在原始 Office 应用程序外轻松查询或修改该文件。

例如,开发人员可以更轻松地从文件中删除文档属性,因为这些属性放置在单个部件中,用户只要删除该部件即可从文档容器内将其删除。使用 WordprocessingML(作为 Office 2003 中的可选 XML 文件格式提供),删除注释涉及到分析整个文件以查找并删除表示注释内容的 XML。使用新的文件格式,与功能相关的数据被分为若干部件。注释、链接、页眉、页脚和其他数据位于可删除的单独部件中。不需要分析整个 Word 文档。

非 XML 部件

非 XML 部件通常是图像和 OLE 对象。使用二进制内容或不使用 XML 的任何文件类型都标识为非 XML。非 XML 部件通常是附加到或嵌入文档的文件。Word XML 格式架构文档解释了 Word 用于这种类型的文件的文本关系和架构层次。

关系部件

关系部件是指向其他部件并定义部件的关系层次结构的 XML 部件。大部分高级别 XML 部件是关系部件。包含数据但不指向其他部件的 XML 部件也称为基元,基元通常具有 application/xml 的内容类型。

ZIP 包

使用 ZIP 包可为所有应用程序带来以下好处:

  • 开放标准 ZIP 压缩算法是定义完善的开放标准。

  • 减小文件大小 文件通常小于同等的二进制文件。一般情况下,Word Open XML 文件可以比其同等二进制文件小 75%,具体取决于图像数量。

  • 稳固性提高 文件更加稳固,对文件中潜在的错误不是很敏感。以前的文件要求文件完好无损才能正常使用。

虽然使用 ZIP 包意味着文件是二进制的,但是 WinFX 应用程序编程接口 (API) 集为 System.IO.Packaging 命名空间中的软件包格式提供本机支持。这使得开发人员能够创建处理该格式的工具,直接针对逻辑模型(部件)工作,而不必考虑扩展或压缩软件包。