使用 Unity Catalog 和 Microsoft Purview 进行数据治理
数据治理对于确保组织内的数据得到安全、高效且符合法规的管理至关重要。 Azure Databricks 与 Unity Catalog 和 Microsoft Purview 相结合,提供了一个用于有效地管理和治理数据的强大解决方案。
数据治理工具
下面概述了如何使用 Unity Catalog 和 Microsoft Purview 实现数据治理。
Unity Catalog
Unity Catalog 是 Azure Databricks 中的一项功能,为所有数据和 AI 资产提供统一的治理解决方案。 它提供了一个集中式元存储,用于管理组织内所有工作区中的数据对象。
Microsoft Purview
Azure Purview 是一项统一的数据治理服务,可帮助你管理和治理本地、多云和服务型软件 (SaaS) 数据。 它提供数据发现、数据分类、数据世系和数据访问治理等功能。
Unity Catalog 概述
Azure Databricks 中的 Unity Catalog 是一个集中式元存储,用于管理各个 Databricks 工作区中所有数据资产和 AI 资产的元数据。 它可以大规模实现精细的安全控制和治理策略,从而更轻松地跨多个团队和项目安全地管理数据。
Unity Catalog 的主要功能
统一的命名空间:Unity Catalog 为所有工作区中的数据集、文件和机器学习模型提供单个命名空间,因而可以更轻松地管理和发现资产。
精细化的访问控制:它允许管理员使用标准 SQL GRANT 和 REVOKE 语句对数据设置精确的访问控制,从而遵守最低权限原则。
数据世系:Unity Catalog 捕获并显示数据世系,这对于跟踪数据流和了解其随时间推移的转换至关重要。
集中式元数据管理:集中管理所有元数据,确保定义、描述和其他元数据在各个项目和工作区之间保持一致。
与 Databricks SQL 集成:Unity Catalog 与 Databricks SQL 完全集成,允许无缝查询和管理数据资产,而无需将数据移出平台。
Microsoft Purview 概述
Microsoft Purview 提供了一套数据治理工具,旨在针对整个组织内的数据使用情况提供可见性、控制和见解。 无论数据位于何处,它都有助于对数据进行发现、分类、保护和监视。
适用于 Azure Databricks 的 Microsoft Purview 的主要功能
数据发现和分类:使用内置分类器自动扫描 Azure Databricks 环境中的数据并将其分类,以及创建自定义分类器。
数据世系:提供对数据世系的详细可见性,其中显示了数据是如何在不同的系统和流程中(包括在 Azure Databricks 中)转换和移动的。
数据映射:将来自各种数据源的元数据聚合到可搜索的目录中,使用户能够了解数据布局及其关系。
访问和策略管理:允许创建治理策略,以强制规定如何在 Azure Databricks 和其他集成系统中访问和使用数据。
见解和报告:提供有关数据发现、敏感度分类和访问分析的详细报告,有助于确保合规性并优化数据治理策略。