你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 中的云规模分析数据产品
数据产品是作为产品提供的数据,由多语言持久化服务计算、保存和提供,某些用例可能需要这些数据。 创建和提供数据产品的过程可能需要数据登陆区域核心服务中不包含的服务和技术。 一个示例是具有小众要求的报告,例如合规性和税务报告。
设计注意事项
可为数据登陆区域提供多个数据产品,这些数据产品是通过从同一数据登陆区域内或跨多个数据登陆区域引入数据而创建的。 下图显示了此过程。
上面的示例显示:
- 区域内数据消耗:
- 数据产品 B 使用数据产品 A 的数据,以及在自己的登陆区域内的数据湖中存在的其他数据或数据产品。
- 数据产品 C 和 D 仅在各自的数据登陆区域内使用数据。
- 区域间数据消耗:
- 数据产品 B 还从数据产品 C 和数据登陆区域 3 的数据湖中使用数据。
重要
数据产品 B 从数据产品 A 和 C 中使用数据。在此之前,数据产品 B 必须通过数据共享协议注册其对数据产品的使用。 此数据共享协议应更新从数据产品 A 到数据产品 B 以及从数据产品 C 到数据产品 B 的世系。
数据产品的资源组包括创建和维护它所需的所有服务。 我们可将此资源组称为数据应用程序。 可能属于数据应用程序的服务示例包括 Azure Functions、Azure 应用服务、逻辑应用、Azure Analysis Services、Azure 认知服务、Azure 机器学习、Azure SQL 数据库、Azure Database for MySQL 和 Azure Cosmos DB。 有关详细信息,请参阅数据应用程序示例。
数据产品包含已应用某些数据转换的 READ 数据源中的数据。 示例包括新特选的数据集或 BI 报表。
设计建议
遵循允许你通过数据治理进行缩放的设计原则,在你的数据登陆区域内构建数据产品。 以下部分提供了设计建议,以帮助你规划数据应用程序生态系统。
部署多个资源组
每个数据应用程序都是一个资源组。 由于数据应用程序是计算服务和/或多语言持久化服务,因此是否需要它们取决于特定的用例。 因此,它们被视为可选的数据登陆区域组件。 如果你确实需要数据应用程序,请按数据应用程序创建多个资源组,如下图所示。
设置护栏
Azure Policy 将驱动数据登陆区域中服务的默认配置。 将运营分析视为多个资源组,数据产品团队可以从标准服务目录中请求这些资源组。 使用 Azure Policy,可以配置安全边界和所需的功能集。
重要
为了促成一致性,请为每个数据应用程序配置一个 Azure Policy。
使用多个位置的数据
数据应用程序管理、组织和理解来自多个数据资产的数据,并呈现获得的任何见解。 数据产品是数据登陆区域内一个或多个数据应用程序的数据的结果。 允许数据应用程序在必要时访问来自多个不同源的数据。
根据需要进行缩放
构成数据应用程序的服务是对数据登陆区域的增量部署。 根据需要缩放数据应用程序。
启用数据发现
自动在 Azure Purview 等数据目录中注册数据产品,以允许数据扫描。
确定你的数据产品
在开始规划数据登陆区域时,根据需要确定尽可能多的数据产品(以及输出和维护它们的数据应用程序),以帮助驱动数据产品应用程序体系结构。 遵守已实现的平台治理可在决策中发挥最大作用。
关注你的数据应用程序如何成为其他数据应用程序的数据生成者和使用者。 例如,假设你已确定一套数据产品(A、B、C 和 D),它们是生成和使用的数据。 需要数据产品 A 和 D 作为数据产品 B 的数据应用程序 B 中的数据源。数据产品 B 是根据数据应用程序 B 从数据产品 A 和 D 使用的数据创建的。数据应用程序 B 本身充当数据生成者,并为数据产品 C 生成数据。
使用基础结构即代码控制数据应用程序环境
治理和基础结构即代码应该控制整个数据产品生态系统的数据应用程序环境,如上图所示。
发布数据模型
数据产品团队应在建模存储库中发布其数据模型。
设置数据产品用户的预期
使用数据产品的服务级别协议和认证来更新数据共享协定,以便向数据产品的潜在用户传达准确的预期。
捕获世系
如果数据产品 B 是从数据产品 A 和 D 的数据创建的,则必须将 A 和 D 的世系捕获到 B。还应为数据产品 C 捕获其他世系,因为它是使用数据产品 B 的数据创建的。更新的世系应在每次发布数据产品之前在数据世系应用程序中捕获。
注意
使用 Azure Pipelines 可以生成审批门限并调用函数,确保元数据、世系和 SLA 在正确的治理服务中注册。
定义数据应用程序体系结构
必须为每个充分定义了与其他数据产品的关系、依赖关系和访问要求的数据产品创建详细的体系结构。
示例设计方案
若要了解体系结构定义过程,请浏览以下介绍金融机构及其信用监控数据产品的示例。
此图中显示的信用监控数据产品使用集成运营团队引入的读取数据存储中的数据。 它生成的数据产品也由其他两个数据产品使用。
注意
读取数据源或存储也称为黄金记录源。 这些数据源已被清理,但尚未对其应用任何转换。
信用监控数据产品团队请求对其数据产品创建过程所需的读取数据存储区进行读取访问。 其请求将路由到数据所有者以供审批。 一旦获得批准,产品团队就可以开始构建其数据应用程序。
将读取数据源中的数据转换为信用监控数据产品。 任何新数据产品将存储在数据湖的特选层中。 这些新数据产品和新数据世系应作为 DevOps 部署过程的一部分进行注册。 函数可以使用数据资产的物理结构检查已注册的元数据。 它应该注册对读取数据源数据资产和数据产品的依赖关系。
贷款审批数据产品团队依赖于一些信用监控数据产品。 其贷款审批团队可能会请求对其数据产品所需的信用监控数据产品进行读取访问。 一旦他们发布了贷款审批数据产品及其数据应用程序,所有数据产品资产、世系和模型都应在相关的治理服务中注册。
示例数据应用程序
以下部分包含示例数据应用程序以进一步演示数据应用方案。
数据分析和数据科学数据应用程序
数据分析和数据科学应用程序可能包含示例数据应用程序 product-analytics-rg
中显示的服务。
注意
可以使用上述数据应用程序作为 模板。 此模板部署一组可用于数据分析和数据科学的服务。 可以使用此数据产品应用程序模板快速创建跨职能团队的环境。 必须显式禁用不需要的任何服务。
数据产品分析模板包含用于在云规模分析方案数据登陆区域内部署数据产品以进行分析和数据科学的所有模板。
部署和代码项目包括以下服务:
- 机器学习
- 密钥保管库
- Application Insights
- 存储
- 容器注册表
- 认知服务(可选)
- 数据工厂(在数据工厂和 Synapse 之间选择)
- Synapse 工作区(在数据工厂和 Synapse 之间选择)
- Azure 搜索(可选)
- SQL 池(可选)
- 大数据池(可选)
批处理数据应用程序
批处理数据应用程序模板包含用于在云规模分析方案数据登陆区域内部署数据产品以进行数据批处理的所有模板。
部署和代码项目包括以下服务:
- 密钥保管库
- 数据工厂(在数据工厂和 Synapse 之间选择)
- Azure Cosmos DB (可选)
- Synapse 工作区(在数据工厂和 Synapse 之间选择)
- MySQL 数据库(可选)
- Azure SQL 数据库(可选)
- PostgreSQL 数据库(可选)
- MariaDB 数据库(可选)
- SQL 池(可选)
- SQL Server(可选)
- SQL 弹性池(可选)
- 大数据池
流式处理数据应用程序
流式处理数据应用程序模板包含用于在云规模分析方案数据登陆区域内部署数据产品以进行实时数据处理的所有模板
部署和代码项目包括以下服务:
- 密钥保管库
- 事件中心
- IoT 中心
- 流分析(可选)
- Azure Cosmos DB (可选)
- Synapse 工作区
- Azure SQL 数据库(可选)
- SQL 池(可选)
- SQL Server(可选)
- SQL 弹性池(可选)
- 大数据池
- 数据资源管理器(可选)
若要查找包含上述部署模板的存储库,请参阅用于云规模分析的部署模板