你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
数据目录
该数据目录在一个集中位置注册和维护数据信息,并使其可供组织使用。 它可确保企业避免由不同项目团队引入冗余数据而导致的重复数据产品。 建议创建数据目录服务,以定义跨数据登陆区域存储的数据产品的元数据。
云规模分析依赖于 Microsoft Purview 来注册企业数据源、对其进行分类、确保数据质量并提供安全的自助访问。
Microsoft Purview 是基于租户的服务,可以通过创建部署到数据登陆区域的托管虚拟网络来与每个数据登陆区域进行通信。 可以在任何可用 Microsoft Purview 区域中的 Microsoft Purview 托管虚拟网络中部署 Azure 托管虚拟网络 Integration Runtimes (IR)。 从那里,托管虚拟网络 IR 可以使用专用终结点安全地连接并扫描支持的数据源。 有关详细信息,请参阅将托管虚拟网络与 Microsoft Purview 帐户配合使用。 在托管虚拟网络中创建托管虚拟网络 IR 可确保数据集成过程是隔离和安全的。
使用 Azure Databricks 时,除了 Microsoft Purview 之外,我们建议使用 Azure Databricks Unity 目录。 Azure Databricks Unity Catalog 在 Databricks 工作区中提供集中式访问控制、审核、血缘关系和数据发现功能。 有关设置 Unity 目录的最佳做法,请参阅 Unity 目录最佳做法。
注意
尽管本文档主要侧重于使用 Microsoft Purview 进行治理,但企业可能已经投资了其他产品,例如 Alation、Okera 或 Collibra。 这些解决方案是基于订阅的,我们建议将它们部署到数据管理登陆区域。 请注意,可能需要进行一些自定义集成。
数据发现
数据发现反映了企业拥有的所有数据的状态。 此数据称为数据资产。 在数据发现期间,会扫描和分类数据资产。 数据扫描过程会根据设置的计划直接连接到数据源。
当你向环境添加新的数据登陆区域时,必须将关联的数据湖和多语言持久化源注册为数据目录爬网程序要扫描的源。
通过自动发现数据资产来填充目录,可以:
- 从 Azure 和本地数据源爬网元数据
- 扫描数据湖、Blob 和其他受支持的目标
- 从 XML、TSV、CSV、PSV、SSV、JSON、Parquet、Avro 和 ORC 文件类型的数据目标中提取架构
- 允许通过可配置的扫描计划和扫描规则集自动更新目录
重要
向环境添加新的数据落地区域时,通过 Azure DevOps 将关联的数据湖和多模式存储注册为供数据目录爬虫程序扫描、治理和管理数据完整性的来源。
数据分类
通过 Microsoft Purview,可以对文件、表或列资产应用系统或自定义数据分类。
数据分类类似于主题标记。 Microsoft Purview 在扫描期间标记并标识在数据资产中找到的特定数据类型的内容。 可以使用敏感度标签来标识组织数据中分类类型的类别。 你还可以使用敏感度标签对你希望应用于每个类别的策略进行分组。 Microsoft Purview 使用与 Microsoft 365 相同的敏感信息类型,使你可以跨整个内容和数据资产扩展现有的安全策略和保护。
Microsoft Purview 可以扫描文档并自动进行分类。 例如,如果你有一个名为 multiple.docx
的文件,并且其内容中包含一个国家/地区 ID 号,则 Microsoft Purview 会在资产详细信息页面中添加一个分类,如 EU National Identification Number
。
Microsoft Defender for SQL 是一个可用于 Azure SQL 数据库、Azure SQL 托管实例和 Azure Synapse Analytics 的功能。 它包括用于发现和分类敏感数据、呈现和减少潜在数据库漏洞,以及检测可能表明数据库存在威胁的异常活动的功能。 Microsoft Defender for SQL 提供用于启用和管理这些功能的一个必去的位置。