Microsoft Purview 中的扫描和引入
本文概述了 Microsoft Purview 中的扫描和引入功能。 这些功能将 Microsoft Purview 帐户连接到源,以填充数据映射和数据目录,以便你可以通过 Microsoft Purview 开始浏览和管理数据。
- 扫描 从 数据源 捕获元数据,并将其带到 Purview Microsoft。
-
引入处理 元数据并将其存储在数据目录中,这两者都包括:
- 数据源扫描 - 扫描的元数据将添加到Microsoft Purview 数据映射。
- 世系连接 - 转换资源将有关其源、输出和活动的元数据添加到Microsoft Purview 数据映射。
扫描
在 Microsoft Purview 帐户中 注册 数据源后,下一步是扫描数据源。 扫描过程与数据源建立连接,并捕获技术元数据,如名称、文件大小、列等。 它还提取结构化数据源的架构,对架构应用分类,并在Microsoft Purview 数据映射连接到Microsoft Purview 合规门户时应用敏感度标签。 扫描过程可以立即触发,也可以计划定期运行,以使 Microsoft Purview 帐户保持最新状态。
对于每次扫描,可以应用自定义项,以便仅扫描所需的信息,而不是整个源。
为扫描选择身份验证方法
默认情况下,Microsoft Purview 是安全的。 Microsoft Purview 中没有直接存储密码或机密,因此需要为源选择身份验证方法。 可通过多种可能的方法对 Microsoft Purview 帐户进行身份验证,但并非每个数据源都支持所有方法。
- 托管标识
- 服务主体
- SQL 身份验证
- Windows 身份验证
- 角色 ARN
- 委托身份验证
- 使用者密钥
- 帐户密钥或基本身份验证
尽可能使用托管标识作为首选身份验证方法,因为它无需存储和管理单个数据源的凭据。 这可以大大减少你和你的团队在设置和排查扫描身份验证问题时花费的时间。 为 Microsoft Purview 帐户启用托管标识时,Microsoft Entra ID会创建一个标识,并绑定到帐户的生命周期。
确定扫描范围
扫描源时,可以选择扫描整个数据源,或仅选择特定实体 (文件夹/表) 进行扫描。 可用选项取决于要扫描的源,并且可以为一次性扫描和计划扫描定义。
例如,在为Azure SQL数据库创建和运行扫描时,可以选择要扫描的表或选择整个数据库。
对于每个实体 (文件夹/表) ,将有三种选择状态:完全选择、部分选择和未选择。 在下面的示例中,如果在文件夹层次结构中选择“部门 1”,则“部门 1”被视为完全选定。 “部门 1”的父实体(如“公司”和“示例”)被视为部分选定,因为同一父级下还有其他实体尚未选择,例如“部门 2”。 对于具有不同选择状态的实体,UI 上将使用不同的图标。
运行扫描后,源系统中可能会添加新资产。 默认情况下,如果在再次运行扫描时完全或部分选择了父级,则将自动选择某个父级下的未来资产。 在上面的示例中,选择“部门 1”并运行扫描后,再次运行扫描时,将包括文件夹“Department 1”下或“公司”和“示例”下的任何新资产。
引入了切换按钮,供用户控制部分选定父级下新资产的自动包含。 默认情况下,关闭切换开关,并禁用部分选定父级的自动包含行为。 在关闭切换开关的同一示例中,再次运行扫描时,部分选择的父级下的任何新资产(如“公司”和“示例”)都不会包含在内,将来的扫描中只会包含“部门 1”下的新资产。
如果打开切换按钮,则当你再次运行扫描时,如果父级已完全或部分选择,则会自动选择某个父级下的新资产。 包含行为将与引入切换按钮之前相同。
注意
- 切换按钮的可用性取决于数据源类型。 目前,它以公共预览版提供,包括 Azure Blob 存储、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure 文件存储 和 Azure 专用 SQL 池 (以前是 SQL DW) 。
- 对于在引入切换按钮之前创建或计划的任何扫描,切换状态设置为“打开”且无法更改。 对于在引入切换按钮后创建或计划的任何扫描,在保存扫描后无法更改切换状态。 需要创建新的扫描才能更改切换状态。
- 关闭切换按钮后,对于存储类型的源(如 Azure Data Lake Storage Gen 2),可能需要长达 4 小时才能在扫描作业完成后,按源类型浏览体验完全可用。
已知限制
关闭切换按钮时:
- 不会扫描部分选定父级下的文件实体。
- 如果显式选择了父级下的所有现有实体,则父级将被视为完全选定,并且再次运行扫描时,将包含父级下的所有新资产。
自定义扫描级别
在Microsoft Purview 数据映射术语中,根据元数据范围和功能,有三种不同级别的扫描:
- L1 扫描:提取基本信息和元数据,如文件名、大小和完全限定名称
- L2 扫描:提取结构化文件类型和数据库表的架构
- L3 扫描:提取架构(如果适用),并将采样文件设置为系统和自定义分类规则
设置新的扫描或编辑现有扫描时,可以自定义扫描已支持扫描级别配置的数据源的扫描级别。
默认情况下,将选择“自动检测”,这意味着Microsoft Purview 将应用可用于此数据源的最高扫描级别。 以Azure SQL数据库为例,执行扫描时,“自动检测”将解析为“Level-3”,因为数据源已在 Microsoft Purview 中支持分类。 扫描运行详细信息中的扫描级别将显示应用的实际级别。
对于扫描历史记录中的所有扫描运行,在自定义扫描级别作为新功能引入之前完成,默认情况下,扫描级别将设置为并显示为“自动检测”。
- 当数据源可以使用更高的扫描级别时,扫描级别设置为“自动检测”的已保存或计划的扫描将自动应用新的扫描级别。 例如,如果为给定数据源启用了分类作为新功能,则此数据源上的所有现有扫描都将自动应用分类。
- 扫描级别设置将显示在每次扫描运行的扫描监视界面中。
- 如果选择了“级别 1”,扫描将仅根据特定数据源的现有元数据可用性返回基本技术元数据,例如资产名称、资产大小、修改后的时间戳等。 对于 Azure SQL 数据库,将在 Microsoft Purview 数据映射 中创建表等资产实体,但无需提取表架构。 (注意:如果用户在源系统) 中具有 必要的权限 ,则仍可以通过实时视图查看表架构。
- 如果选择“Level-2”,扫描将返回表架构以及基本技术元数据,但不会执行数据采样和分类。 对于Azure SQL数据库,表资产实体将捕获没有分类信息的表架构。)
- 如果选择了“级别 3”,扫描将执行数据采样和分类。 这是在引入新功能时在扫描级别之前Azure SQL数据库扫描的标准配置。
- 如果计划的扫描设置为较低的扫描级别,然后修改为更高的扫描级别,则下一次扫描运行将自动执行完全扫描,并且数据源中的所有现有数据资产都将使用更高扫描级别设置引入的元数据进行更新。 例如,当Azure SQL数据库上具有“Level-2”的计划扫描集更改为“Level-3”时,下一个扫描运行将是完全扫描,所有现有的Azure SQL数据库表/视图资产都将使用分类信息进行更新,之后的所有扫描都将恢复为使用“Level-3”设置的增量扫描。
- 如果将计划的扫描设置为更高的扫描级别,然后修改为较低的扫描级别,则下一次扫描运行将继续执行增量扫描,并且数据源中的所有新数据资产将仅具有较低扫描级别设置引入的元数据。 例如,当Azure SQL数据库上具有“Level-3”的计划扫描集更改为“Level-2”时,下一个扫描运行将是增量扫描,Microsoft Purview 数据映射中添加的所有新Azure SQL数据库表/视图资产都将没有分类信息。 所有现有数据资产仍将保留从上一个扫描集生成的分类信息“Level-3”。
注意
- 自定义扫描级别目前适用于以下数据源:Azure SQL Database、Azure SQL 托管实例、Azure Cosmos DB for NoSQL、Azure Database for PostgreSQL、Azure Database for MySQL、Azure Data Lake Storage Gen2、Azure Blob 存储、Azure 文件存储、Azure Synapse Analytics、Azure 专用 SQL 池 (以前是 SQL DW) 、Azure 数据资源管理器、Dataverse、Azure 多 (Azure 订阅) 、Azure 多 (Azure 资源组) 、Snowflake、Azure Databricks Unity 目录
- 目前,此功能仅在 Azure IR 和 托管 VNet IR v2 上可用。
扫描规则集
扫描规则集确定扫描针对其中一个源运行时将查找的信息类型。 可用规则取决于要扫描的源类型,但包括应扫描的 文件类型 以及所需的 分类 类型等内容。
系统 扫描规则集 已可用于许多数据源类型,但你也可以 创建自己的扫描规则集 ,以便为组织定制扫描。
计划扫描
Microsoft Purview 让你可以选择在所选的特定时间每天、每周或每月扫描一次。 详细了解支持的 计划选项。 每日或每周扫描可能适用于具有积极开发或经常更改的结构的数据源。 每月扫描更适合不经常更改的数据源。 最佳做法是与要扫描的源的管理员合作,确定源上的计算需求较低的时间。
扫描如何检测已删除的资产
Microsoft Purview 目录仅在运行扫描时知道数据存储的状态。 要使目录知道文件、表或容器是否已删除,它会将上次扫描输出与当前扫描输出进行比较。 例如,假设上次扫描Azure Data Lake Storage Gen2帐户时,该帐户包含名为 folder1 的文件夹。 再次扫描同一帐户时, 缺少 folder1 。 因此,目录假定文件夹已被删除。
提示
由于检测到已删除文件的方式,可能需要多次成功的扫描来检测和解析已删除的资产。 如果数据目录未为范围扫描注册删除,请尝试多次完全扫描来解决此问题。
检测已删除的文件
检测缺失文件的逻辑适用于同一用户和不同用户的多次扫描。 例如,假设用户对文件夹 A、B 和 C 上的Data Lake Storage Gen2数据存储运行一次性扫描。稍后,同一帐户中的其他用户对同一数据存储的文件夹 C、D 和 E 运行不同的一次性扫描。 由于文件夹 C 已扫描两次,因此目录会检查其是否可能删除。 但是,仅扫描一次文件夹 A、B、D 和 E,目录不会为已删除的资产检查它们。
若要将已删除的文件保留在目录中,请务必定期运行扫描。 扫描间隔很重要,因为目录在运行另一个扫描之前无法检测到已删除的资产。 因此,如果每月在特定存储中运行一次扫描,则在一个月后运行下一次扫描之前,目录无法检测该存储中的任何已删除的数据资产。
枚举大型数据存储(如 Data Lake Storage Gen2)时,有多种方法 (包括枚举错误和丢失信息) 删除的事件。 特定扫描可能会错过创建或删除文件。 因此,除非目录确定文件已删除,否则它不会从目录中删除该文件。 此策略意味着,如果扫描的数据存储中不存在的文件仍存在于目录中,则可能存在错误。 在某些情况下,可能需要对数据存储进行两次或三次扫描,然后才能捕获某些已删除的资产。
注意
- 标记为要删除的资产在成功扫描后被删除。 在处理和删除已删除资产之前,已删除的资产可能会在目录中持续显示一段时间。
- 目前,以下源不支持源删除检测:Azure Databricks、Amazon Redshift、Cassandra、Dataverse、Db2、Erwin、Google BigQuery、Hive 元存储、Looker、MongoDB、MySQL、Oracle、PostgreSQL、Power BI、Qlik Sense、Salesforce、SAP BW、SAP ECC、SAP HANA、SAP S/4HANA、Snowflake、Tableau 和 Teradata。 从数据源中删除对象时,后续扫描不会自动删除 Microsoft Purview 中的相应资产。
摄入
引入是负责使用通过各种进程收集的元数据填充数据映射的过程。
从扫描引入
然后,扫描过程标识的技术元数据或分类将发送到引入。 引入分析扫描中的输入, 应用资源集模式,填充可用的 世系 信息,然后自动加载数据映射。 只有在引入完成后,才能发现或策展资产/架构。 因此,如果扫描已完成,但尚未在数据映射或目录中看到资产,则需要等待引入过程完成。
从世系连接引入
Azure 数据工厂和Azure Synapse等资源可以连接到 Microsoft Purview,以便将数据源和世系信息引入Microsoft Purview 数据映射。 例如,当复制管道在已连接到 Microsoft Purview 的Azure 数据工厂中运行时,有关输入源、活动和输出源的元数据将引入 Microsoft Purview 中,并将信息添加到数据映射。
如果已通过扫描将数据源添加到数据映射,则有关该活动的世系信息将添加到现有源。 如果数据源尚未添加到数据映射,则世系引入过程会将其及其世系信息添加到根集合。
有关可用世系连接的详细信息,请参阅 世系用户指南。
后续步骤
有关详细信息或有关扫描源的具体说明,请遵循以下链接。
- 若要了解资源集,请参阅 资源集一文。
- 如何管理Azure SQL数据库
- Microsoft Purview 中的世系