Configurer et exécuter l’analyse de la qualité des données
Les analyses de la qualité des données examinent vos ressources de données en fonction de leurs règles de qualité des données appliquées et produisent un score. Vos gestionnaires de données peuvent utiliser ce score pour évaluer l’intégrité des données et résoudre les problèmes susceptibles de réduire la qualité de vos données.
Configuration requise
- Pour exécuter et planifier des analyses d’évaluation de la qualité des données, vos utilisateurs doivent avoir le rôle de gestionnaire de la qualité des données.
- Actuellement, le compte Microsoft Purview peut être défini pour autoriser l’accès public ou l’accès au réseau virtuel géré afin que les analyses de la qualité des données puissent s’exécuter.
Cycle de vie de la qualité des données
L’analyse de la qualité des données est la septième étape du cycle de vie de la qualité des données pour une ressource de données. Les étapes précédentes sont les suivantes :
- Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
- Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
- Ajouter votre ressource de données à un produit de données
- Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.
-
Configurez et exécutez le profilage des données pour une ressource dans votre source de données.
- Une fois le profilage terminé, parcourez les résultats de chaque colonne de la ressource de données pour comprendre la structure et l’état actuels de vos données.
- Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
Sources de données multicloud prises en charge
- Azure Data Lake Storage (ADLS Gen2)
- Types de fichiers : Delta Parquet et Parquet
- Base de données Azure SQL
- Le patrimoine de données fabric dans OneLake inclut le raccourci et la mise en miroir du patrimoine de données. L’analyse de la qualité des données est prise en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
- Mise en miroir du patrimoine de données : CosmosDB, Snowflake, Azure SQL
- Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2 et dataverse
- Azure Synapse serverless et l’entrepôt de données
- Catalogue Unity d' Azure Databricks
- Flocon de neige
- Google Big Query (préversion privée)
Importante
La qualité des données pour le fichier Parquet est conçue pour prendre en charge les points suivants :
- Répertoire avec fichier de composant Parquet. Par exemple : ./Sales/{Parquet Part Files}. Le nom complet doit suivre
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Assurez-vous que nous n’avons pas de modèles {n} dans la structure des répertoires/sous-répertoires. Il doit plutôt s’agir d’un nom de domaine complet direct menant à {SparkPartitions}. - Répertoire avec des fichiers Parquet partitionnés, partitionnés par colonnes dans le jeu de données, comme les données de ventes partitionnée par année et par mois. par exemple : ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Ces deux scénarios essentiels qui présentent un schéma de jeu de données Parquet cohérent sont pris en charge.
Limitation: Il n’est pas conçu pour ou ne prend pas en charge N hiérarchies arbitraires de répertoires avec des fichiers Parquet.
Nous conseillons au client de présenter des données dans (1) ou (2) structure construite.
Méthodes d’authentification prises en charge
Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4. Pour plus d’informations sur les régions prises en charge, consultez Vue d’ensemble de la qualité des données.
Importante
Si le schéma est mis à jour sur la source de données, il est nécessaire de réexécuter l’analyse de la carte de données avant d’exécuter une analyse de la qualité des données.
Exécuter une analyse de la qualité des données
Configurez des connexions de source de données aux ressources que vous analysez pour la qualité des données, si vous ne les avez pas déjà créées.
Dans Catalogue unifié Microsoft Purview, sélectionnez le menu Gestion de l’intégrité et le sous-menu Qualité des données.
Sélectionnez un domaine de gouvernance dans la liste.
Sélectionnez un produit de données pour évaluer la qualité des données des ressources de données liées à ce produit.
La sélection du produit de données vous permet d’accéder à la page Vue d’ensemble de la qualité des données. Vous pouvez parcourir les règles de qualité des données existantes et ajouter de nouvelles règles en sélectionnant le menu Règles sur cette page. Vous pouvez parcourir le schéma de la ressource de données en sélectionnant le menu Schéma dans cette page.
Parcourez les règles déjà ajoutées à l’analyse pour les ressources sélectionnées, puis activez ou désactivez-les dans la colonne État .
Exécutez l’analyse de qualité en sélectionnant le bouton Exécuter l’analyse de qualité dans la page de présentation.
Pendant l’exécution de l’analyse, vous pouvez suivre sa progression à partir de la page de surveillance de la qualité des données dans le domaine de gouvernance.
Planifier des analyses de la qualité des données
Bien que les analyses de la qualité des données puissent être exécutées sur une base ad hoc en sélectionnant le bouton Exécuter l’analyse de qualité , dans les scénarios de production, il est probable que les données sources soient constamment mises à jour. Nous voulons donc nous assurer que nous surveillons régulièrement la qualité de leurs données afin de détecter les éventuels problèmes. Pour nous permettre de gérer régulièrement les analyses qualité mises à jour, nous pouvons automatiser le processus d’analyse.
Dans Catalogue unifié Microsoft Purview, sélectionnez le menu Gestion de l’intégrité et le sous-menu Qualité des données.
Sélectionnez un domaine de gouvernance dans la liste.
Sélectionnez le bouton Gérer à droite de la page, puis sélectionnez Analyses planifiées.
Remplissez le formulaire dans la page Créer une analyse planifiée . Ajoutez un nom et une description pour la source que vous configurez la planification.
Cliquez sur Continuer.
Sous l’onglet Étendue , sélectionnez le produit et les ressources de données individuels ou tous les produits de données et ressources de données de l’ensemble du domaine de gouvernance.
Cliquez sur Continuer.
Définissez une planification en fonction de vos préférences, puis sélectionnez Continuer.
Sous l’onglet Révision, sélectionnez Enregistrer (ou Enregistrer et exécuter pour tester immédiatement) pour terminer la planification de l’analyse d’évaluation de la qualité des données.
Vous pouvez surveiller les analyses planifiées sur la page de surveillance des travaux de qualité des données sous l’onglet Analyses .
Supprimer les analyses de qualité des données précédentes
- Dans Catalogue unifié Microsoft Purview, sélectionnez le menu Gestion de l’intégrité et le sous-menu Qualité des données.
- Sélectionnez un domaine de gouvernance dans la liste.
- Sélectionnez le bouton de sélection (« ... ») en haut de la page.
- Sélectionnez Supprimer les données de qualité des données pour supprimer l’historique des exécutions de qualité des données.
Remarque
Nous vous recommandons d’utiliser cette suppression uniquement pour les séries de tests, les exécutions de qualité des données erronées ou si vous supprimez une ressource de données d’un produit de données.
Si vous souhaitez supprimer une ressource de données d’un produit de données, si cette ressource de données a un score de qualité des données, vous devez d’abord supprimer le score de qualité des données, puis supprimer la ressource de données du produit de données.
Importante
Le format delta est généralement détecté automatiquement si le format est standard et correct dans les systèmes sources. Pour analyser le format de fichier Parquet ou iceberg afin d’obtenir un scoring de qualité des données, vous devez remplacer le type de ressource de données par Parquet ou iceberg. Comme illustré dans la capture d’écran ci-dessous, modifiez le type de ressource de données par défaut *Parquet ou un autre format pris en charge si le format de votre fichier de ressource de données n’est pas delta. Cette modification doit être effectuée avant de configurer le travail d’analyse de la qualité des données.
Contenu associé
- Data Quality for Fabric Data Estate
- Qualité des données pour les sources de données mises en miroir fabric
- Sources de données de raccourci qualité des données pour fabric
- Qualité des données pour Azure Synapse entrepôts de données et serverless
- Qualité des données pour Azure Databricks Unity Catalog
- Qualité des données pour les sources de données Snowflake
- Qualité des données pour Google Big Query
Étapes suivantes
- Surveiller l’analyse de la qualité des données
- Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.
- Configurer des alertes pour les résultats de l’analyse de la qualité des données