Partage via


Normalisation des actifs

Lors de l’ingestion de ressources dans le Mappage de données Microsoft Purview, différentes sources mettant à jour la même ressource de données peuvent envoyer des noms qualifiés similaires, mais légèrement différents. Bien que ces noms qualifiés représentent la même ressource, de légères différences telles qu’un caractère supplémentaire peuvent faire apparaître ces ressources en surface différentes et entraîner des entrées en double dans Microsoft Purview. Pour éviter de stocker des entrées en double et de provoquer une confusion lors de l’utilisation des Catalogue unifié, Microsoft Purview applique automatiquement la normalisation pendant l’ingestion pour s’assurer que tous les noms complets du même type d’entité sont au même format.

Par exemple, vous analysez dans un objet blob Azure avec le nom https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetqualifié . Cet objet blob est également consommé par un pipeline Azure Data Factory qui ajoute ensuite des informations de traçabilité à la ressource. Le pipeline ADF (Azure Data Factory) peut être configuré pour lire le fichier en tant que https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet. Bien que le nom qualifié soit différent, ce pipeline ADF consomme le même élément de données. La normalisation garantit que toutes les métadonnées de Stockage Blob Azure et Azure Data Factory sont visibles sur une seule ressource, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Importante

Les règles répertoriées ci-dessous sont les seuls types de duplication potentielles que Microsoft Purview reconnaît actuellement. Si vous rencontrez une duplication accidentelle de ressources, comparez les noms complets des ressources à case activée pour connaître les différences de capitalisation ou les caractères supplémentaires. Mettez à jour tous les points d’ingestion, par exemple vos pipelines ADF, afin que les noms qualifiés correspondent.

Règles de normalisation

Il s’agit des règles de normalisation que Microsoft Purview applique automatiquement.

Encoder des accolades

S’applique à : Toutes les ressources

Avant: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Après: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Découper les espaces de section

S’applique à : Objet blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3

Avant: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Après: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Supprimer les espaces de nom d’hôte

S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3

Avant: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Supprimer les crochets

S’applique à : base de données Azure SQL, Azure SQL Managed Instance, pool Azure SQL

Avant: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Après: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Remarque

Les espaces entre deux crochets seront encodés

Schéma en minuscules

S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Amazon S3

Avant: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nom d’hôte en minuscules

S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Amazon S3

Avant: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Extension de fichier en minuscules

S’applique à : Blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Avant: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Après: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Supprimer la barre oblique dupliquée

S’applique à : Objet blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3

Avant: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Convertir en schéma ADL

S’applique à : Azure Data Lake Storage Gen1

Avant: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Après: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Supprimer la barre oblique de fin

Supprimez la barre oblique de fin des ressources de niveau supérieur pour Azure Blob, ADLS Gen1 et ADLS Gen2.

S’applique à : Objet blob Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Types de ressources : « azure_blob_container », « azure_blob_service », « azure_storage_account », « azure_datalake_gen2_service », « azure_datalake_gen2_filesystem », « azure_datalake_gen1_account ».

Avant: https://myaccount.core.windows.net/

Après: https://myaccount.core.windows.net

Résolution des problèmes

Si vos données ne sont pas normalisées et que vous rencontrez une duplication accidentelle de ressources, comparez les noms complets des ressources à case activée pour connaître les différences de capitalisation ou les caractères supplémentaires.

Les règles répertoriées ci-dessus sont les seuls types de duplication que Microsoft Purview reconnaît actuellement. Si vos données ne respectent pas ces règles, mettez à jour tous les points d’ingestion, par exemple vos pipelines ADF, afin que les noms qualifiés correspondent.

Si vos ressources répondent aux règles mais ne sont pas normalisées, contactez le support.

Étapes suivantes

Analysez dans un compte Stockage Blob Azure dans la carte de données Microsoft Purview.