资产规范化

将资产引入Microsoft Purview 数据映射时,更新同一数据资产的不同源可能会发送类似但略有不同的限定名称。 虽然这些限定名称表示同一资产,但细微的差异(如额外的字符)可能会导致这些资产在表面上显示不同,并导致 Microsoft Purview 中的重复条目。 为了避免存储重复条目并在使用统一目录时造成混淆,Microsoft Purview 会在引入期间自动应用规范化,以确保同一实体类型的所有完全限定名称采用相同的格式。

例如,在 Azure Blob 中使用限定名称 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet进行扫描。 此 Blob 也由Azure 数据工厂管道使用,该管道随后会将世系信息添加到资产。 可将 ADF (Azure 数据工厂) 管道配置为将文件读取为 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet。 虽然限定名称不同,但此 ADF 管道使用同一段数据。 规范化可确保Azure Blob 存储和Azure 数据工厂中的所有元数据在单个资产https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet上可见。

重要

下面列出的规则是 Purview 当前识别Microsoft唯一的潜在重复类型。 如果遇到意外的资产重复,请将资产完全限定的名称与检查进行比较,了解大写差异或额外字符。 更新任何引入点,例如 ADF 管道,以便限定名称匹配。

规范化规则

这些是 purview 自动应用Microsoft规范化规则。

对大括号进行编码

适用于:所有资产

以前: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

后: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

剪裁分区空间

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL Database、Azure SQL 托管实例、Azure SQLpool, Azure Cosmos DB, Azure 认知搜索, Azure 数据资源管理器, Azure Data Share, Amazon S3

以前: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

后: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

删除主机名空间

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure Data Share、Amazon S3

以前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

删除方括号

适用于:Azure SQL数据库、Azure SQL 托管实例Azure SQL池

以前: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

后: mssql://foo.database.windows.net/bar/dbo/foo%20bar

注意

将编码两个方括号之间的空格

小写方案

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3

以前: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小写主机名

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3

以前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小写文件扩展名

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3

以前: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

后: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

删除重复的斜杠

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL Database、Azure SQL 托管实例、Azure SQLpool, Azure Cosmos DB, Azure 认知搜索, Azure 数据资源管理器, Azure Data Share, Amazon S3

以前: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

后: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

转换为 ADL 方案

适用于:Azure Data Lake Storage Gen1

以前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

后: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

删除尾部斜杠

从 Azure Blob、ADLS Gen1 和 ADLS Gen2 的更高级别资产中删除尾部斜杠。

适用于:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2

资产类型:“azure_blob_container”、“azure_blob_service”、“azure_storage_account”、“azure_datalake_gen2_service”、“azure_datalake_gen2_filesystem”、“azure_datalake_gen1_account”。

以前: https://myaccount.core.windows.net/

后: https://myaccount.core.windows.net

疑难解答

如果数据未规范化,并且遇到意外的资产重复,请将资产完全限定的名称与检查进行比较,了解大写差异或其他字符。

上面列出的规则是 Purview 当前识别Microsoft唯一的重复类型。 如果数据超出这些规则,请更新任何引入点(例如 ADF 管道),以便限定名称匹配。

如果资产符合规则但未规范化, 请联系支持人员

后续步骤

在 Azure Blob 存储 帐户中扫描到 Microsoft Purview 数据映射。