你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
数据网格的金融机构场景
此方案适用于想要使用云缩放分析实现可伸缩性和 数据网格 体系结构的客户。 它演示了一个具有登陆区域、数据集成和数据产品的复杂方案。
客户资料
一家虚构的企业伍德格罗夫银行是一家拥有全球足迹的大型金融服务公司。 Woodgrove Bank 的数据存储在本地和云部署系统中。 在 Woodgrove Bank 体系结构中,有多个数据仓库系统用于合并营销和集成报告。 此体系结构包括多个用于计划外分析和数据发现的数据湖。 Woodgrove Bank 应用程序通过应用程序集成模式进行互连,这些模式主要是基于 API 或基于事件的。
当前情况
由于数据仓库的复杂性,Woodgrove Bank 很难将数据分发到不同的位置。 整合新数据很耗时,因此容易让人产生复制数据的想法。 Woodgrove Bank 发现,由于点到点连接,很难监督端到端数据布局。 该银行低估了对密集数据消耗的需求。 新的用例是快速引入的,一个接一个地引入。 数据管理(如数据所有权和质量)以及成本难以控制。 遵守法规是困难的,因为 Woodgrove Bank 不知道其数据所在的确切位置。
体系结构解决方案:数据网格
在过去的几年里,组织认识到数据是一切的核心。 数据可提高新效率,推动创新,解锁新的业务模型,并提高客户满意度。 对于公司而言,使用数据驱动的方法(如大规模数据)是首要任务。
达到一个阶段,使所有组织成员都可以访问数据的更深层价值是具有挑战性的。 传统和紧密互连的系统、集中式整体平台和复杂的治理可能是生成数据价值的重要障碍。
关于数据网格
数据网格的概念(Zhamak Dehghani 创造的术语)包括数据、技术、流程和组织。 从概念上来说,这是一种易于理解的方法,使得各个领域能够使用他们的数据来进行管理。 数据网格挑战了传统数据集中化的想法。 数据网格将数据分解为独立的数据产品,而不是简单地将数据视为一个巨大的存储库。 这种从集中式到联合所有权的转变,由通常使用云原生技术设计的现代自助服务数据平台提供支持。
将数据网格概念分解为构建基块时,需要考虑以下一些要点:
- 数据作为产品:每个(组织)域以端到端方式运行其数据。 责任在于域中的数据所有者。 管道成为域本身的首要关注点。
- 联合计算数据管理:为确保每个数据所有者能够信任其他人并共享其数据产品,必须建立企业数据管理机构。 治理机构实现数据质量、数据所有权的集中可见性、数据访问管理和数据隐私策略。
- Domain-Oriented 数据所有权:企业应通过应用面向域的设计原则,在网格中定义和建模每个数据域节点。
- Self-Serve 数据平台:数据网格需要自助服务数据平台,允许用户删除技术复杂性并专注于其个人数据用例。
Cloud-Scale Analytics
数据即产品思维和自助服务平台模型对Microsoft并不新。 Microsoft多年来观察到分布式平台、跨域管道、联合所有权和自我解释数据的最佳做法。
Woodgrove Bank 可以使用云规模分析转换到数据网格。 云规模分析是一个开源的规范蓝图,用于设计和快速部署新式数据平台。 它与 Azure 最佳做法和设计原则结合在一起,并与 Azure Well-Architected Framework 保持一致。 云规模分析为企业提供了 80% 的规定观点,其余 20% 是可自定义的。
云规模分析为企业提供了数据网格的战略设计路径,可用于快速设置此类体系结构。 它提供蓝图,包括用于数据管理的核心数据平台服务。
在最高级别,云规模分析使用数据管理功能,该功能通过数据管理登陆区域启用。 此区域负责(自助服务)平台组织的联合数据管理,以及通过数据产品推动业务价值的数据域。 此方法的好处是,它消除了技术复杂性,同时遵守相同的标准。 它确保技术没有扩散。 它还允许企业开始模块化,占用空间较小,然后随着时间推移而增长。
如下图所示,数据管理登陆区域将包围所有数据域。 它将所有领域粘合在一起,并提供伍德格罗夫银行所需的监督管理。
云规模分析还倡导在分发数据产品时,应用使用通用架构的一贯治理。 框架允许在域之间直接通信。 它通过强调中央编录和分类来保护数据并允许组发现数据,从而保持控制状态。 它在你的数据资产之上放置了一把保护伞。
数据域
使用云规模分析作为战略路径时,需要考虑体系结构的分解和相应的粒度。 数据网格在分解数据时不遵循技术界限。 相反,它应用域驱动设计(DDD)的原则,这是一种涉及大型组织复杂系统的软件开发方法。 DDD 之所以流行,是因为它对现代软件和应用程序开发实践(如微服务)的影响。
域驱动设计中的模式之一称为边界上下文。 边界上下文设置域解决方案空间的逻辑边界,以更好地管理复杂性。 团队必须了解哪些方面(包括数据)可以更改,哪些是需要与他人协调的共享依赖项。 数据网格包含边界上下文。 它使用此模式描述组织如何围绕数据域进行协调,并专注于将数据作为产品交付。 每个数据域拥有并运行多个数据产品,其自己的技术堆栈独立于其他数据堆栈。
数据产品
仔细研究此类数据域的内部体系结构时,预期会发现其中的数据产品。
数据产品满足使用数据的企业的特定需求。 数据产品跨域管理、组织和理解数据,然后呈现他们获得的见解。 数据产品从一个或多个数据集成或其他数据产品的数据生成。 数据产品与数据域密切相关,并继承利益干系人和设计人员同意的相同构造、正式化语言。 生成数据的每个域都负责使这些数据产品可供其他域使用。
为了帮助快速交付数据产品,云规模分析提供了用于数据分发和集成模式的模板。 该框架提供数据批处理、流式处理和分析,以满足各种使用者的需求。
云规模分析的一个优势是域和数据产品的组织方式。 每个数据域都与一个数据登陆区域保持一致,这是一个逻辑构造,也是云规模分析体系结构中的缩放单元。 它支持数据保留和执行数据工作负荷,从而生成见解和价值。 每个数据产品都与数据登陆区域中的一个资源组保持一致,所有数据登陆区域和管理区域都与订阅保持一致。 此方法可简化实现和管理。
所有云规模分析模板从数据管理登陆区域继承相同的策略集。 这些模板自动提供必要的元数据,以实现数据可发现性、治理、安全性、成本管理和卓越运营。 无需复杂的载入、集成和测试,即可快速载入新的数据域。
下图说明了数据产品的外观:
构建数据产品的一种实用方法是与源(数据来源)或使用用例保持一致。 在这两种情况下,都需要提供基础(复杂)应用程序数据模型的抽象视图。 必须尝试隐藏技术详细信息并针对密集型数据消耗进行优化。 Azure Synapse 视图或 Parquet 文件(以逻辑方式将数据组合在一起)是一个示例,演示如何跨各种数据域共享数据产品。
接下来,需要处理数据可发现性、来源、使用情况和世系。 经过验证的方法是使用数据治理服务(如 Microsoft Purview)来注册所有数据。 云规模分析中的数据集成有效地使各要素有机融合,因为它在执行元数据注册的同时,能够构建这些数据产品。
通过对齐数据域和 Microsoft Purview 集合,可以自动捕获来自各个域的所有数据来源、数据沿袭、数据质量详细信息和数据消费信息。 使用此方法,可以将多个数据域和产品连接到集中式治理解决方案,该解决方案存储来自每个环境的所有元数据。 好处是,它集中集成所有元数据,并使各种使用者易于访问。 可以扩展此体系结构来注册新的数据产品。
下图演示了使用云缩放分析的跨域数据网格体系结构。
网络设计允许跨域共享数据产品,方法是使用最少的成本并消除单一故障点和带宽限制。 为了帮助确保安全性,可以使用Microsoft 零信任 安全模型。 云规模分析建议通过专用终结点和专用网络通信使用网络隔离,这是一种使用 MI、UMI 和嵌套安全组的标识驱动数据访问模型,遵循最小权限原则。
可以使用托管标识来确保遵循最低特权访问模型。 此模型中的应用程序和服务对数据产品的访问权限有限。 Azure 策略与即将推出的数据策略一起用于在所有数据产品中大规模启用自助服务并强制实施合规资源。 通过此设计,你可以获得统一的数据访问,同时通过集中式数据管理和审核完全控制数据。
向未来发展
云规模分析设计时考虑到了数据网格。 云规模分析提供了一种经过验证的方法,组织可以在多个数据域中共享数据。 此框架允许域具有自主性来做出选择,并通过数据管理服务对体系结构进行环绕保护。
实现数据网格时,逻辑上对域进行分组和组织。 此方法需要企业视角,并且可能是组织的文化变革。 这种转变要求你在数据域和负责以产品的形式提供其数据的所有者之间联合数据所有权。 它还要求团队遵循数据管理落地区域所提供的集中式功能。 这种新方法可能需要个别团队放弃他们目前的授权,这可能会产生阻力。 你可能必须做出某些政治选择,并在集中和分散的方法之间取得平衡。
可以通过向各个域的体系结构添加更多登陆区域来扩展数据网格体系结构。 这些登陆区域使用虚拟网络对等互连连接到数据管理登陆区域及所有其他登陆区域。 此模式允许跨区域共享数据产品和资源。 拆分为单独的区域时,可以将工作负荷分散到 Azure 订阅和资源之间。 此方法允许你有机地实现数据网格。
了解更多信息
Microsoft资源:
数据网格创始人 Zhamak Dehghani 发表的文章: