你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是数据网格?

数据网格是在大型复杂组织中实现企业数据平台的一种体系结构模式。 数据网格有助于扩大分析的应用范围,使其超越单一平台和单一实施团队。

背景

对分析的需求并不是新生事物。 组织一直需要对业务绩效进行分析,并自计算机问世以来就一直在利用它来进行分析。 大约在上世纪八零年代,组织开始使用专门用于决策支持的数据库来构建数据仓库解决方案。 这些数据仓库解决方案在很长一段时间内为企业提供了良好的服务。

然而,随着业务的变化和产生的数据更加多样化,使用关系数据库的数据仓库解决方案可能并不总是最佳解决方案。 进入本世纪,大数据成为了一个常用术语。 企业采用了新的解决方案,可以对快速生成的大量不同数据进行分析。 这包括数据湖等技术,以及可分析大量数据的横向扩展解决方案。

近年来,许多组织成功地使用了新式体系结构和分析模式,这些模式结合了数据仓库技术和近期开发出的大数据技术。

但是,一些组织在部署使用分析模式的分析解决方案时会遇到一些问题。 这些解决方案通常仍以整体解决方案的形式来实现,即由一个团队提供平台,并由其负责数据集成。 规模较小的组织和从团队设置角度看高度集中的组织都可以使用单一团队。 然而,规模较大的组织仅使用一个团队往往会造成瓶颈。 这种瓶颈会造成大量积压,导致企业的部分部门需要等待数据集成服务和分析解决方案。

随着企业采用现代数据科学解决方案,这种模式变得越来越常见。 与过去的传统商业智能解决方案相比,许多现代数据科学解决方案需要更多的数据。

最近转而使用微服务作为一种应用程序开发模式,是造成数据集成工作长期积压的另一个原因,因为这增加了数据源的数量。

在大型组织中,由一个团队在单一平台上处理所有数据引入工作也会造成问题。 一个团队中很少配备了每个数据源的专家。 从业务角度看,大多数组织都是分散和分布式的。 不同的业务单位和部门负责不同的业务运营,因此数据专家通常分布在各个部门。

为了解决这些问题,我们引入了一种名为数据网格的模式。 数据网格的目标是让分布式团队以分散和灵活的方式处理和共享信息。

数据网格是一种技术模式,它也需要在组织中进行变革。 数据网格方法的优势是通过组建发布和使用数据产品的多学科团队来实现的。

以下概念是理解数据网格体系结构的基础:

  • 数据域
  • 数据产品
  • 自助式平台
  • 联合治理

数据域

数据域是数据网格的基础。 数据域的概念来自领域驱动开发 (DDD),这是软件开发中通常用于为复杂软件解决方案建模的一种范式。 在数据网格中,数据域是围绕企业数据定义边界的方式。 域可能因组织而异,在某些情况下,你可以围绕组织定义域。 在其他情况下,可以选择基于业务流程或源系统对数据域进行建模。

数据域包括三个方面:

  • 你选择的边界使它们自己取得长期所有权。 它们存在很长一段时间,并且具有已确定的所有者。

  • 领域应与现实相匹配,而不仅仅是理论概念。

  • 域需有原子完整性。 如果区域之间不存在相互关系,请不要将它们组合在一个域中。

有关数据域以及如何定义数据域的详细信息,请参阅数据域

数据产品

数据产品是数据网格的另一个重要组成部分。 数据产品旨在将产品思维带入数据世界。 为了使数据产品取得成功,它需要为目标用户提供长期的商业价值。 在数据网格中,数据产品涉及数据、代码资产、元数据和相关策略。 数据产品可以作为 API、报告、表或数据湖中的数据集交付。

成功的数据产品必须具备以下特征:

  • 可用:产品必须有直接数据域以外的用户。
  • 有用:产品必须随着时间的推移保持价值。 如果缺乏长期价值,它就不可能成功。
  • 可行:产品必须可行。 如果不能真正建造它,产品就不可能成功。 从数据可用性和技术角度看,产品必须是可行的。

数据产品的代码资产包括生成它的代码和交付它的代码。 代码资产还包括用于创建产品和产品最终报告的管道。

有关数据产品的详细信息,请参阅 Azure 中的云规模分析数据产品

有关使用数据网格的具体指导,请参阅什么是数据产品?

自助式平台

数据网格的核心是具有一个允许数据域自行构建其数据产品的平台。 数据域需要通过使用与用户相关的工具和流程来定义数据产品,而不必强烈依赖中央平台或中央平台团队。 在数据网格中,有自治团队开发和管理自治产品。

在使用去中心化并与了解数据的业务用户保持一致的同时,也要记住在平台上工作的通才。 正因为有通才,你才不能使用需要专业知识的专业工具作为网状平台的核心基础。

通过采用自助式数据平台的设计注意事项中所述的做法,可以成功实现自助式平台。

联合治理

当采用自助分布式数据平台时,必须更加重视治理。 缺乏治理会导致数据域中出现孤岛和数据重复。 将治理联合起来,因为领域团队和数据所有者中都不乏了解治理需求的人员。

若要创建联合治理,请围绕平台和数据需求实现自动化策略。 使用较高程度的自动化进行测试和监视。 采用代码优先的实现策略,将标准、策略、数据产品和平台部署作为代码进行处理。

有关实施联合治理方面的详细信息,请参阅数据治理概述

总结

数据网格可以是实现企业数据平台的有效方式,但它不是适合所有组织的最佳解决方案。 数据网格要求组建可独立工作的自治团队。 数据网格最适用于拥有独立业务部门的大型复杂组织,它们需要将分析应用的规模扩展到单一平台和实施团队之外。

如果使用数据网格,请在实现治理时特别小心,以免造成孤岛。 始终将数据产品思维作为实现的核心,以确保成功。

后续步骤