Normalisation des actifs
Lors de l’ingestion de ressources dans le Mappage de données Microsoft Purview, différentes sources mettant à jour la même ressource de données peuvent envoyer des noms qualifiés similaires, mais légèrement différents. Bien que ces noms qualifiés représentent la même ressource, de légères différences telles qu’un caractère supplémentaire peuvent faire apparaître ces ressources en surface différentes et entraîner des entrées en double dans Microsoft Purview. Pour éviter de stocker des entrées en double et de provoquer une confusion lors de l’utilisation des Catalogue unifié, Microsoft Purview applique automatiquement la normalisation pendant l’ingestion pour s’assurer que tous les noms complets du même type d’entité sont au même format.
Par exemple, vous analysez dans un objet blob Azure avec le nom https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
qualifié . Cet objet blob est également consommé par un pipeline Azure Data Factory qui ajoute ensuite des informations de traçabilité à la ressource. Le pipeline ADF (Azure Data Factory) peut être configuré pour lire le fichier en tant que https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
. Bien que le nom qualifié soit différent, ce pipeline ADF consomme le même élément de données. La normalisation garantit que toutes les métadonnées de Stockage Blob Azure et Azure Data Factory sont visibles sur une seule ressource, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
.
Importante
Les règles répertoriées ci-dessous sont les seuls types de duplication potentielles que Microsoft Purview reconnaît actuellement. Si vous rencontrez une duplication accidentelle de ressources, comparez les noms complets des ressources à case activée pour connaître les différences de capitalisation ou les caractères supplémentaires. Mettez à jour tous les points d’ingestion, par exemple vos pipelines ADF, afin que les noms qualifiés correspondent.
Règles de normalisation
Il s’agit des règles de normalisation que Microsoft Purview applique automatiquement.
Encoder des accolades
S’applique à : Toutes les ressources
Avant: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
Après: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
Découper les espaces de section
S’applique à : Objet blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Avant: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
Après: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
Supprimer les espaces de nom d’hôte
S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Avant: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Supprimer les crochets
S’applique à : base de données Azure SQL, Azure SQL Managed Instance, pool Azure SQL
Avant: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
Après: mssql://foo.database.windows.net/bar/dbo/foo%20bar
Remarque
Les espaces entre deux crochets seront encodés
Schéma en minuscules
S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Amazon S3
Avant: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Nom d’hôte en minuscules
S’applique à : Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Amazon S3
Avant: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Extension de fichier en minuscules
S’applique à : Blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3
Avant: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
Après: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
Supprimer la barre oblique dupliquée
S’applique à : Objet blob Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, pool Azure SQL, Azure Cosmos DB, Recherche cognitive Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Avant: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
Après: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Convertir en schéma ADL
S’applique à : Azure Data Lake Storage Gen1
Avant: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Après: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Supprimer la barre oblique de fin
Supprimez la barre oblique de fin des ressources de niveau supérieur pour Azure Blob, ADLS Gen1 et ADLS Gen2.
S’applique à : Objet blob Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2
Types de ressources : « azure_blob_container », « azure_blob_service », « azure_storage_account », « azure_datalake_gen2_service », « azure_datalake_gen2_filesystem », « azure_datalake_gen1_account ».
Avant: https://myaccount.core.windows.net/
Après: https://myaccount.core.windows.net
Résolution des problèmes
Si vos données ne sont pas normalisées et que vous rencontrez une duplication accidentelle de ressources, comparez les noms complets des ressources à case activée pour connaître les différences de capitalisation ou les caractères supplémentaires.
Les règles répertoriées ci-dessus sont les seuls types de duplication que Microsoft Purview reconnaît actuellement. Si vos données ne respectent pas ces règles, mettez à jour tous les points d’ingestion, par exemple vos pipelines ADF, afin que les noms qualifiés correspondent.
Si vos ressources répondent aux règles mais ne sont pas normalisées, contactez le support.
Étapes suivantes
Analysez dans un compte Stockage Blob Azure dans la carte de données Microsoft Purview.