Gestion de la qualité des données pour les éléments de données critiques (préversion)
Les éléments de données critiques (CED) sont un regroupement logique de colonnes importantes entre les tables de vos sources de données qui vous permettent de concentrer stratégiquement vos efforts de gouvernance là où vous aurez le plus d’effet.
Qualité des données Microsoft Purview offre une solution intégrée pour mesurer la qualité des éléments de données critiques (CDE), ce qui permet aux organisations de s’assurer que ces éléments de données clés répondent aux normes requises en matière de précision, d’exhaustivité, de cohérence et d’intégrité.
Les organisations peuvent établir des seuils de qualité spécifiques que les CTE doivent respecter pour maintenir leur qualité. Ces seuils sont appliqués au niveau du CDE logique, mais s’étendent à toutes les colonnes individuelles qui composent le CDE. Ces règles peuvent englober différents aspects de la qualité des données, notamment la validation, le nettoyage, la normalisation et l’enrichissement. Par exemple : les règles de qualité des données peuvent spécifier que les adresses des clients doivent être normalisées dans un format spécifique, ou que les ID d’employés doivent respecter un certain modèle.
Une fois que les règles de qualité des données sont appliquées aux CDE, Qualité des données Microsoft Purview évalue systématiquement les éléments de données physiques sous-jacents pour évaluer leur conformité à ces règles. En utilisant l’approche intégrée de Purview Data Quality, les organisations peuvent surveiller et gérer de manière proactive la qualité de leurs éléments de données critiques, en veillant à ce qu’ils restent fiables, précis et adaptés à leur objectif. Cela améliore non seulement les processus de prise de décision, mais permet également d’atténuer les risques associés aux erreurs ou incohérences de données, ce qui aboutit à de meilleurs résultats métier.
Types de ressources pris en charge
- Azure Data Lake Storage (ADLS Gen2)
- Types de fichiers : Delta et Parquet
- Base de données Azure SQL
- Le patrimoine de données fabric dans OneLake inclut le raccourci et la mise en miroir du patrimoine de données. L’analyse de la qualité des données est prise en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
- Mise en miroir du patrimoine de données : CosmosDB, Snowflake, Azure SQL
- Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2 et dataverse
- Azure Synapse serverless et l’entrepôt de données
- Catalogue Unity d' Azure Databricks
- Flocon de neige
- Google Big Query (préversion privée)
Règles de qualité des données disponibles pour les CTE
Qualité des données Microsoft Purview permet de configurer les règles ci-dessous pour les CDE. La sélection d’une règle vous permet d’accéder à l’article Règles générales de qualité des données pour plus d’informations.
Règle | Définition |
---|---|
Valeurs uniques | Confirme que les valeurs d’une colonne sont uniques. |
Correspondance du type de données | Confirme que les valeurs d’une colonne correspondent à leurs exigences en matière de type de données. |
Champs vides/vides | Recherche les champs vides et vides dans une colonne où il doit y avoir des valeurs. |
Configurer la qualité des données pour les CTE
Si ce n’est déjà fait, créez un élément de données critique (CDE) et ajoutez des colonnes.
Ouvrez votre CDE en :
- Ouvrez Catalogue unifié Microsoft Purview et sélectionnez la liste déroulante Gestion des données et le sous-menu Domaines de gouvernance.
- Sélectionnez un domaine de gouvernance dans la liste.
- Sélectionnez la vignette Éléments de données critiques .
- Sélectionnez un élément de données critique dans la liste.
Sélectionnez l’onglet Qualité des données dans votre élément de données critique.
Ajoutez une nouvelle règle à l’élément de données critique en sélectionnant Nouvelle règle.
Sélectionnez le type de règle de qualité des données que vous souhaitez utiliser, puis sélectionnez Suivant.
Fournissez les détails nécessaires pour votre type de règle.
Indiquez si vous souhaitez activer oudésactiver la règle.
Sélectionnez Créer.
Exécuter des règles de qualité des données pour les CTE
Lorsqu’une analyse de la qualité des données est exécutée pour une ressource de données disponible qui a une colonne associée à un CDE, les règles de qualité des données que vous avez configurées pour ce CDE produisent un score.
Planifiez ou exécutez une analyse de la qualité des données pour vos ressources de données associées à votre CDE.
Surveillez la progression du travail d’analyse de la qualité des données au fur et à mesure de son exécution, en veillant à ce qu’il se termine sans erreurs ou interruptions. Vérifiez que les règles de qualité des données appliquées ont été correctement exécutées à partir de l’historique instantané.
Passez en revue les résultats du travail d’analyse pour évaluer la qualité de la ressource de données CDE en fonction des règles appliquées.
Analysez les résultats du travail d’analyse de la qualité des données pour identifier les problèmes, anomalies ou domaines d’amélioration liés à la ressource de données CDE. Cela peut impliquer le nettoyage, la normalisation ou l’enrichissement des données pour améliorer leur qualité.