資產正規化
將資產內嵌到 Microsoft Purview 資料對應 時,更新相同數據資產的不同來源可能會傳送類似但稍微不同的限定名稱。 雖然這些限定名稱代表相同的資產,但像是額外字元的些微差異可能會導致表面上的這些資產看起來不同,並在 Microsoft Purview 中造成專案重複。 為了避免儲存重複的專案,並在取用 整合式目錄 時造成混淆,Microsoft Purview 會在擷取期間自動套用正規化,以確保相同實體類型的所有完整名稱都採用相同的格式。
例如,您在 Azure Blob 中使用限定名稱 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
進行掃描。 Azure Data Factory 管線也會取用此 Blob,然後將歷程資訊新增至資產。 ADF (Azure Data Factory) 管線可設定為將檔案讀取為 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
。 雖然限定名稱不同,但此 ADF 管線會取用相同的數據片段。 正規化可確保來自 Azure Blob 儲存體 和 Azure Data Factory 的所有元數據都會顯示在單一資產 上。 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
重要事項
下列規則是 Purview 目前唯一辨識Microsoft可能重複的類型。 如果您遇到意外的資產重複,請比較資產完整名稱,以檢查大小寫差異或額外字元。 更新任何擷取點,例如您的ADF管線,讓限定名稱相符。
正規化規則
這些是 Microsoft Purview 自動套用的正規化規則。
編碼大括號
適用於:所有資產
以前: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
後: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
修剪區段空間
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、Azure Cosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
以前: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
後: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
拿掉主機名空間
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
以前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
拿掉方括弧
適用於:Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區
以前: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
後: mssql://foo.database.windows.net/bar/dbo/foo%20bar
注意事項
兩個方括弧之間的空格將會編碼
小寫配置
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Amazon S3
以前: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小寫主機名
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、AzureCosmos DB、Azure 認知搜尋、Azure Data Explorer、Amazon S3
以前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
小寫擴展名
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3
以前: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
後: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
拿掉重複的斜線
適用於:Azure Blob、Azure 檔案儲存體、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL 受控執行個體、Azure SQL 集區、Azure Cosmos DB、Azure 認知搜尋、Azure Data Explorer、Azure Data Share、Amazon S3
以前: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
轉換為 ADL 配置
適用於:Azure Data Lake Storage Gen1
以前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
後: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
拿掉尾端斜線
針對 Azure Blob、ADLS Gen1 和 ADLS Gen2,從較高層級的資產中移除尾端斜線。
適用於:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2
資產類型:「azure_blob_container」 azure_blob_service“ azure_storage_account” azure_storage_account“ azure_datalake_gen2_service” azure_datalake_gen2_filesystem azure_datalake_gen1_account”
以前: https://myaccount.core.windows.net/
後: https://myaccount.core.windows.net
疑難排解
如果您的數據未正規化,而且您遇到意外的資產重複,請比較資產完整名稱,以檢查大小寫差異或其他字元。
以上所列的規則是 Purview 目前唯一辨識Microsoft重複類型。 如果您的數據超出這些規則,請更新任何擷取點,例如您的 ADF 管線,讓限定名稱相符。
如果您的資產符合規則,但未正規化,請 連絡支持人員。
後續步驟
在 Azure Blob 儲存體 帳戶中掃描至 Microsoft Purview 數據對應。