你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
数据管理登陆区域
数据管理登陆区是云规模分析中的核心管理职能。 它负责管理你的分析平台。
你的数据管理登陆区域是一个单独的订阅,具有相同的标准 Azure 登陆区域服务。 它允许通过爬网程序对数据进行数据治理(爬网程序连接到数据登陆区域中的数据湖和多语言存储)。 虚拟网络对等互连将你的数据管理登陆区域连接到你的数据登陆区域和连接订阅。
此体系结构是一个起点,可以在规划数据管理登陆区域实现时对其进行修改,以适应特定的业务和技术要求。
注意
多语言持久化是一个存储术语,描述了你在不同数据存储/数据存储技术之间的选择,以支持你的各种数据类型及其存储需求。 从本质上讲,多语言持久化是指应用程序可以使用多个核心数据库或存储技术的概念。
重要
数据管理登陆区域必须作为单独的订阅部署在具有适当治理的管理组下。 然后,你可以控制整个组织的治理。 Azure 登陆区域加速器说明了应该如何处理 Azure 登陆区域。
数据管理
云规模分析建议使用 Microsoft Purview。 或者,可以部署Microsoft合作伙伴解决方案来管理特定的数据治理功能。 体系结构中要考虑的关键功能包括全局数据目录、主数据管理、数据共享和合同、API 目录、数据质量控制和数据建模存储库。
需要在订阅中部署的 Microsoft 合作伙伴数据治理产品,应部署到数据管理落地专区中的数据治理资源组。
数据目录
该数据目录在一个集中位置注册和维护数据信息,并使其可供组织使用。 它可确保企业避免由不同项目团队引入冗余数据而导致的重复数据产品。 建议创建数据目录服务,以定义跨数据登陆区域存储的数据产品的元数据。
云规模分析依赖于 Microsoft Purview 来注册企业数据源、对其进行分类、确保数据质量并提供安全的自助访问。
Microsoft Purview 是基于租户的服务,可以通过创建部署到数据登陆区域的托管虚拟网络来与每个数据登陆区域进行通信。 可以在任何可用 Microsoft Purview 区域中的 Microsoft Purview 托管虚拟网络中部署 Azure 托管虚拟网络 Integration Runtimes (IR)。 从那里,托管虚拟网络 IR 可以使用专用终结点安全地连接并扫描支持的数据源。 有关详细信息,请参阅将托管虚拟网络与 Microsoft Purview 帐户配合使用。 在托管虚拟网络中创建托管虚拟网络 IR 可确保数据集成过程是隔离和安全的。
使用 Azure Databricks 时,除了 Microsoft Purview 之外,我们建议使用 Azure Databricks Unity 目录。 Azure Databricks Unity Catalog 提供跨 Databricks 工作区的集中式访问控制、审核、世系和数据发现功能。 有关设置 Unity 目录的最佳做法,请参阅 Unity 目录最佳做法。
注意
尽管本文档主要侧重于使用 Microsoft Purview 进行治理,但企业可能已经投资了其他产品,例如 Alation、Okera 或 Collibra。 这些解决方案是基于订阅的,我们建议将它们部署到数据管理登陆区域。 请注意,可能需要进行一些自定义集成。
主数据管理
主数据管理控制驻留在数据管理登陆区域内。 数据网格中的主数据管理包含你应该为数据网格调用的特定注意事项。
许多主数据管理解决方案与 Microsoft Entra ID 完全集成。 可以通过集成保护数据,并为不同的用户组提供不同的视图。
有关详细信息,请参阅主数据管理系统。
数据共享和协定
云规模分析使用 Microsoft Entra 权利管理或 Microsoft Purview 策略来控制对数据共享的访问。 即便如此,你可能仍需要共享和合同存储库。 此存储库是一种组织功能,应位于你的数据管理登陆区域。
这些协定应提供有关数据验证、模型和安全策略的信息。
有关详细信息,请参阅 数据协定。
API 目录
数据应用程序团队为其数据应用程序创建各种 API。 在整个组织中很难发现这些 API。 将 API 目录放在数据管理登陆区域中可解决此问题。
API 目录可帮助标准化文档,并为 API 的内部协作提供场所。 它还可以推动整个组织的使用、发布和治理控制。
数据质量管理
继续处理当前的解决方案。
尽可能接近数据源管理数据质量,以防止质量问题分散在分析和 AI 系统中。 通过将质量指标和验证集成到数据流程中,可以将质量控制与最熟悉数据的团队保持一致,确保更深入地了解和更好地处理数据资产。
数据世系还提供数据质量置信度,并应提供给所有数据产品。
有关数据质量管理的更多信息,请参阅数据质量。
数据建模存储库
应在数据管理登陆区域中的中心位置捕获和存储实体关系模型,为数据使用者提供一个查找概念关系图的位置。
许多客户在引入之前使用 ER Studio 和 OrbusInfinity 为其数据产品建模。
服务层
你的组织可能决定创建许多自动化服务来增强云规模的分析能力。 这些自动化服务为你的分析状态推动一致性和载入解决方案。
如果你决定构建这些自动化服务,你应该拥有一个用户界面,既可充当数据市场又可充当操作控制台。 此接口应依赖于基础元数据存储,例如 元数据标准。
你的数据市场或操作控制台调用中间层的微服务来促进入职、元数据注册、安全配置、数据生命周期和可观察性。
可以预配 服务层 资源组来托管元数据存储。
重要
这些自动化服务都不是产品,它们不说明任何路线图项。 列出它们是为了帮助你考虑可能要自动化的项目。
服务 | 服务范围 |
---|---|
数据登陆区域预配 | 该服务创建一个新的数据登陆区域。 它的使用率可能不是很高,但包含在端到端的载入解决方案完整性中。 有关更多信息,请参阅预配云规模分析 |
数据产品培训 | 此服务创建和修改与已注册租户相关的资源组。 它还包含升级和降级 SKU 以及激活和停用任何已载入租户或服务的资源组的功能。 此服务将创建一个新的数据登陆区域 DevOps。 有关更多信息,请参阅预配云规模分析 |
与数据无关的引入 | 此微服务通过与每个数据登陆区域中的 Azure 数据工厂 SQL 数据库元存储通信,创建新的数据源,以便导入到您的数据登陆区域。 有关详细信息,请参阅自动化引入框架如何支持 Azure 中的云规模分析 |
元数据 | 此服务公开并创建平台的元数据。 有关详细信息,请参阅元数据标准 |
访问预配 | 此服务使用 SPN/UPN 创建访问包、访问策略和资产访问审批流程(手动或自动)。 它还可以公开 API,以提供用户在过去 90 天内提交的订阅请求(资产)列表。 有关详细信息,请参阅数据访问管理 |
数据生命周期 | 此服务负责根据元数据维护你的数据生命周期。 这种维护可以包括将数据移动到冷存储和删除不再需要保留的记录。 有关详细信息,请参阅数据生命周期管理 |
数据域加入 | 仅适用于数据网格。 此服务捕获与新域相关的元数据并根据需要载入新域。 此服务还可以创建、更新、激活和停用你可能构建到微服务中的任何域或服务线。 有关更多信息,请参阅预配云规模分析 |
Azure 容器注册表
你的数据管理登陆区域托管 Azure 容器注册表。 Azure 容器注册表允许你的数据平台操作部署标准容器,以便在你的数据应用程序团队使用的数据科学项目中使用。