你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
数据网格的金融机构方案
此方案适用于想要使用云规模分析实现可伸缩性和 数据网格 体系结构的客户。 它演示了一个包含登陆区域、数据集成和数据产品的复杂方案。
客户配置文件
一家虚构的企业,伍德格罗夫银行,是一家拥有全球足迹的大型金融服务公司。 Woodgrove Bank 的数据存放在本地和云部署系统中。 在 Woodgrove Bank 体系结构中,有多个数据仓库系统用于合并营销和集成报告。 此体系结构包括多个用于临时分析和数据发现的数据湖。 Woodgrove Bank 应用程序通过应用程序集成模式互连,这些模式大多基于 API 或基于事件。
当前情况
由于数据仓库的复杂性,Woodgrove Bank 很难将数据分发到不同的位置。 集成新数据非常耗时,而且很容易造成数据重复。 Woodgrove Bank 发现,由于点到点连接,很难监督端到端数据布局。 该行低估了对密集数据消耗的需求。 一个接一个地快速引入新的用例。 数据治理(如数据所有权和质量)和成本难以控制。 与法规保持同步很困难,因为 Woodgrove Bank 不知道其数据的确切位置。
体系结构解决方案:数据网格
在过去的几年里,组织已经认识到数据是一切的核心。 数据开启了新的效率,推动了创新,开启了新的商业模式,并提高了客户满意度。 公司的首要任务是使用数据驱动的方法,例如大规模数据。
要达到一个阶段,让所有组织成员都可以访问数据的更深层次价值,这一阶段是一项挑战。 遗留且紧密互连的系统、集中的单一平台和复杂的治理可能是从数据中创造价值的重大障碍。
关于数据网格
数据网格是 Zhamak Dehghani 创造的一个术语,其概念中包括数据、技术、流程和组织。 从概念上讲,它是一种可访问的方法来管理各种域使用其自己的数据的数据。 数据网格挑战了传统的数据集中化理念。 数据网格考虑独立数据产品的分解,而不是将数据视为一个巨大的存储库。 这种从集中式所有权到联合所有权的转变由现代自助式数据平台提供支持,该平台通常使用云原生技术进行设计。
将数据网格概念分解为构建基块时,需要考虑以下几个要点:
- 数据作为产品:每个(组织)域都端到端地操作其数据。 由域内的数据所有者负责。 管道成为域本身的第一类关注点。
- 联合计算数据治理:为了确保每个数据所有者可以信任其他人并共享其数据产品,必须建立企业数据治理机构。 治理机构实现数据质量、数据所有权的集中可见性、数据访问管理和数据隐私策略。
- 面向域的数据所有权:理想情况下,企业应该通过应用以域为导向的设计原则来定义和建模网格中的每个数据域节点。
- 自助数据平台:数据网格需要自助服务数据平台,使用户能够消除技术复杂性,并专注于其个人数据用例。
云规模分析
数据即产品思维和自助服务平台模型对 Microsoft 并不不熟悉。 多年来,Microsoft 一直遵循分布式平台、跨域的管道、联合所有权和一目了然的数据的最佳做法。
Woodgrove Bank 可以使用云规模分析转换到数据网格。 云规模分析是用于设计和快速部署现代数据平台的开源规范蓝图。 它与 Azure 的最佳做法和设计原则相结合,并与 Azure Well-Architected Framework 保持一致。 云规模分析为企业提供了 80% 的规定观点,其余 20% 可自定义。
云规模分析为企业提供了一条通往数据网格的战略设计路径,可用于快速建立此类体系结构。 它提供了一个蓝图,其中包括用于数据管理的核心数据平台服务。
在最高级别,云规模分析使用数据管理功能,该功能通过数据管理登陆区域启用。 此区域负责(自助服务)平台组织的联合数据治理,以及通过数据产品推动业务价值的数据域。 此方法的优点是可消除技术复杂性,同时遵循相同的标准。 它可确保不会增加大量技术。 它使企业能够从占用空间小的模块化产品开始,之后再进行扩展。
如下图所示,数据管理登陆区域围绕着所有数据域。 它将所有域联合在一起,并提供 Woodgrove Bank 需要的监督功能。
云规模分析还提倡应用一致的治理,在分发数据产品时使用通用的体系结构。 框架允许在域之间直接通信。 它通过强调集中编录和分类来保护数据并允许组发现数据来保持控制。 它在你的数据资产之上放置了一把保护伞。
数据域
使用云规模分析作为战略路径时,需要考虑体系结构的分解和产生的粒度。 数据网格不遵循技术边界来分解数据。 相反,它将应用域驱动设计 (DDD) 的原则,这是一种涉及大型组织复杂系统的软件开发方法。 DDD 之所以流行,是因为它对新式软件和应用程序开发实践(如微服务)的影响。
领域驱动设计中的一种模式被称为“有界上下文”。 有界上下文用于设置域解决方案空间的逻辑边界,以更好地管理复杂性。 团队必须了解哪些方面(包括数据)可以更改,哪些是共享依赖项,以便与他人协调。 数据网格包含有界上下文。 它使用此模式来描述组织如何围绕数据域进行协调,并专注于将数据作为产品交付。 每个数据域拥有并运行多个数据产品,其自己的技术堆栈独立于其他数据堆栈。
数据产品
当放大此类数据域的内部体系结构时,你希望在其中查找数据产品。
数据产品满足使用数据的企业的特定需求。 数据产品可跨域管理、组织和了解数据,并提供他们获得的见解。 数据产品是来自一个或多个数据集成或其他数据产品的数据的结果。 数据产品与数据域紧密一致,并继承相同的构造形式化语言。 它由利益干系人和设计人员达成一致,它满足设计的需求。 每个生成数据的域负责使这些数据产品可用于其他域。
为了帮助快速交付数据产品,云规模分析提供了用于数据分发和集成模式的模板。 该框架提供数据批处理、流式处理和分析,以满足不同使用者的需求。
云规模分析的一大优点是域和数据产品的组织方式。 每个数据域都与一个数据登陆区域保持一致,这是云规模分析体系结构中的逻辑构造和缩放单元。 它支持数据保留和执行数据工作负载,从而产生见解和价值。 每个数据产品都与数据登录区域中的一个资源组保持一致,并且所有数据登录区域和管理区域都与订阅保持一致。 这种方法简化了实施和管理。
所有云规模分析模板都从数据管理登陆区域继承相同的策略集。 模板自动提供必要的元数据,以实现数据可发现性、治理、安全性、成本管理和卓越运营。 可以快速载入新的数据域,而无需复杂的载入、集成和测试。
下图展示了数据产品:
构建数据产品的一种实用方法是与数据来源或使用用例保持一致。 在这两种情况下,都需要提供底层(复杂)应用程序数据模型的抽象视图。 必须尝试隐藏技术细节并针对密集的数据使用进行优化。 Azure Synapse视图或 Parquet 文件(以逻辑方式将数据组合在一起)是如何在各种数据域之间共享数据产品的一个示例。
接下来,需要处理数据的发现、治理、使用和沿袭。 一种行之有效的方法是使用 Azure Purview 等数据治理服务来注册所有数据。 云规模分析中的数据集成完美地连接了这些点,因为它允许在同时执行元数据注册时生成这些数据产品。
通过使数据域和 Azure Purview 集合保持一致,你可以自动捕获来自各个域的所有数据来源、沿袭、数据质量详细信息和使用信息。 通过这种方法,你可以将多个数据域和产品连接到集中治理解决方案,该解决方案存储来自每个环境的所有元数据。 好处是它集中集成了所有元数据,并使各种使用者可以轻松访问。 你可以扩展此体系结构以注册新的数据产品。
下图说明了使用云规模分析的跨域数据网格架构。
网络设计允许使用最低成本并消除单一故障点和带宽限制,跨域共享数据产品。 为帮助确保安全,可以使用 Microsoft 零信任安全模型。 云规模分析建议通过专用终结点和专用网络通信使用网络隔离,这是一种使用 MI、UMI 和嵌套安全组的标识驱动数据访问模型,遵循最小权限原则。
你可以使用托管标识来确保遵循最低权限访问模式。 此模型中的应用程序和服务对数据产品的访问权限有限。 Azure 策略与即将推出的数据策略一起用于在所有数据产品中大规模启用自助服务并强制实施合规资源。 通过这种设计,你可以拥有统一的数据访问权限,同时通过集中数据治理和审核保持完全控制。
向未来发展
云规模分析的设计考虑了数据网格。 云规模分析提供了一种行之有效的方法,组织可以通过该方法跨多个数据域共享数据。 此框架允许域拥有做出选择的自主权,并通过使用数据管理服务对体系结构进行环形隔离来控制体系结构。
实现数据网格时,以逻辑方式对域进行分组和组织。 此方法需要企业视图,并且可能是组织的文化转变。 这种转变要求你在负责提供数据作为产品的数据域和所有者之间联合数据所有权。 它还要求团队遵守数据管理登陆区提供的集中功能。 这种新方法可能要求各个团队放弃他们目前的任务,这可能会产生阻力。 你可能必须做出某些政治选择,并在集中式和分散式方法之间作出权衡。
可以通过向各个域的体系结构添加更多登陆区域来扩展数据网格体系结构。 这些登陆区域使用虚拟网络对等互连连接到数据管理登陆区域及所有其他登陆区域。 此模式允许跨区域共享数据产品和资源。 拆分为单独的区域时,可以跨 Azure 订阅和资源分散工作负载。 这种方法允许你有机地实施数据网格。
了解详细信息
Microsoft 资源:
数据网格创始人 Zhamak Dehghani 发表的文章: