次の方法で共有


アセットの正規化

資産をMicrosoft Purview データ マップに取り込む場合、同じデータ資産を更新する異なるソースから、類似の修飾名が送信される場合がありますが、修飾名は若干異なる場合があります。 これらの修飾名は同じ資産を表しますが、余分な文字などのわずかな違いにより、サーフェス上のこれらの資産が異なって表示され、Microsoft Purview で重複するエントリが発生する可能性があります。 重複したエントリを格納し、統合カタログを使用するときに混乱を引き起こさないように、Microsoft Purview はインジェスト中に正規化を自動的に適用して、同じエンティティ型のすべての完全修飾名が同じ形式になるようにします。

たとえば、修飾名 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetを使用して Azure BLOB でスキャンします。 この BLOB は、資産に系列情報を追加するAzure Data Factory パイプラインによっても使用されます。 ADF (Azure Data Factory) パイプラインは、ファイルをhttps://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquetとして読み取るように構成できます。 修飾名は異なりますが、この ADF パイプラインは同じデータを使用しています。 正規化により、Azure Blob StorageとAzure Data Factoryの両方のすべてのメタデータが 1 つの資産 (https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet) に確実に表示されます。

重要

次に示す規則は、Microsoft Purview が現在認識している可能性のある重複の唯一の種類です。 資産の重複が誤って発生する場合は、資産の完全修飾名を大文字と小文字の違いまたは余分な文字のチェックと比較します。 修飾名が一致するように、ADF パイプラインなどのインジェスト ポイントを更新します。

正規化ルール

これらは、Microsoft Purview が自動的に適用する正規化規則です。

中かっこをエンコードする

適用対象: すべての資産

以前は: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

後: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

セクションスペースをトリミングする

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Azure Data Share、Amazon S3

以前は: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

後: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

ホスト名スペースを削除する

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Azure Data Share、Amazon S3

以前は: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

角かっこを削除する

適用対象: Azure SQL データベース、Azure SQL Managed Instance、Azure SQL プール

以前は: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

後: mssql://foo.database.windows.net/bar/dbo/foo%20bar

注:

2 つの角かっこの間のスペースはエンコードされます

小文字のスキーム

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Amazon S3

以前は: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小文字のホスト名

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Amazon S3

以前は: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

小文字のファイル拡張子

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3

以前は: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

後: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

重複するスラッシュを削除する

適用対象: Azure Blob、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Data Factory、Azure SQL Database、Azure SQL Managed Instance、Azure SQL プール、Azure Cosmos DB、Azure Cognitive Search、Azure Data Explorer、Azure Data Share、Amazon S3

以前は: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

後: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

ADL スキームへの変換

適用対象: Gen1 Azure Data Lake Storage

以前は: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

後: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

末尾のスラッシュを削除する

Azure Blob、ADLS Gen1、および ADLS Gen2 の上位レベルの資産から末尾のスラッシュを削除します。

適用対象: Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2

資産の種類: "azure_blob_container"、"azure_blob_service"、"azure_storage_account"、"azure_datalake_gen2_service"、"azure_datalake_gen2_filesystem"、"azure_datalake_gen1_account"。

以前は: https://myaccount.core.windows.net/

後: https://myaccount.core.windows.net

トラブルシューティング

データが正規化されておらず、偶発的な資産の重複が発生している場合は、資産の完全修飾名を、大文字と小文字の違いまたは追加の文字のチェックと比較します。

上記の規則は、Microsoft Purview が現在認識している重複の唯一の種類です。 データがこれらの規則の範囲外にある場合は、修飾名が一致するように、ADF パイプラインなどのインジェスト ポイントを更新します。

資産がルールを満たしていても正規化されていない場合は、 サポートにお問い合わせください

次の手順

Azure Blob Storage アカウントで Microsoft Purview データ マップをスキャンします。