Partager via


Configurer et exécuter le profilage des données pour une ressource de données

Le profilage des données consiste à examiner les données disponibles dans différentes sources de données et à collecter des statistiques et des informations sur ces données. Le profilage des données permet d’évaluer le niveau de qualité des données en fonction d’un ensemble d’objectifs défini. Si les données sont de mauvaise qualité ou gérées dans des structures qui ne peuvent pas être intégrées pour répondre aux besoins de l’entreprise, les processus métier et la prise de décision en souffrent. Le profilage des données vous permet de comprendre la fiabilité et la qualité de vos données, ce qui est une condition préalable à la prise de décisions pilotées par les données qui augmentent le chiffre d’affaires et favorisent la croissance.

Configuration requise

  • Pour exécuter et planifier des analyses d’évaluation de la qualité des données, vos utilisateurs doivent avoir le rôle de gestionnaire de la qualité des données.
  • Actuellement, le compte Microsoft Purview peut être défini pour autoriser l’accès public ou l’accès au réseau virtuel géré afin que les analyses de la qualité des données puissent s’exécuter.

Cycle de vie de la qualité des données

Le profilage des données est la cinquième étape du cycle de vie de qualité des données pour une ressource de données. Les étapes précédentes sont les suivantes :

  1. Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
  2. Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
  3. Ajouter votre ressource de données à un produit de données
  4. Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.

Sources de données multicloud prises en charge

  • Azure Data Lake Storage (ADLS Gen2)
    • Types de fichiers : Delta Parquet et Parquet
  • Base de données Azure SQL
  • Le patrimoine de données fabric dans OneLake inclut le raccourci et la mise en miroir du patrimoine de données. Le profilage des données est pris en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
    • Mise en miroir du patrimoine de données : Cosmos DB, Snowflake, Azure SQL
    • Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2 et Dataverse
  • Azure Synapse serverless et l’entrepôt de données
  • Catalogue Unity d' Azure Databricks
  • Flocon de neige
  • Google Big Query (préversion privée)

Importante

La qualité des données pour le fichier Parquet est conçue pour prendre en charge les points suivants :

  1. Répertoire avec fichier de composant Parquet. Par exemple : ./Sales/{Parquet Part Files}. Le nom complet doit suivre https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assurez-vous que nous n’avons pas de modèles {n} dans la structure des répertoires/sous-répertoires. Il doit plutôt s’agir d’un nom de domaine complet direct menant à {SparkPartitions}.
  2. Répertoire avec des fichiers Parquet partitionnés, partitionnés par colonnes dans le jeu de données, comme les données de ventes partitionnée par année et par mois. Par exemple : ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ces deux scénarios essentiels qui présentent un schéma de jeu de données Parquet cohérent sont pris en charge.
Limitation: Il n’est pas conçu pour ou ne prend pas en charge N hiérarchies arbitraires de répertoires avec des fichiers Parquet. Nous conseillons au client de présenter des données dans (1) ou (2) structure construite.

Méthodes d’authentification prises en charge

Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4. Pour plus d’informations sur les régions prises en charge, consultez Vue d’ensemble de la qualité des données.

Importante

Si le schéma est mis à jour sur la source de données, il est nécessaire de réexécuter l’analyse du mappage de données avant d’exécuter un profilage de données.

Étapes de configuration du travail de profilage des données

  1. Configurez une connexion de source de données à la ressource si vous n’en avez pas déjà créé une.

  2. Dans Catalogue unifié Microsoft Purview, sélectionnez le menu Gestion de l’intégrité et le sous-menu Qualité des données.

  3. Dans le sous-menu Qualité des données, sélectionnez le domaine Gouvernance pour le profilage des données.

  4. Sélectionnez un produit de données pour profiler une ressource de données liée à ce produit.

    Capture d’écran du menu qualité des données, montrant comment sélectionner un produit de données.

  5. Sélectionnez une ressource de données pour accéder à la page Vue d’ensemble de la qualité des données à des fins de profilage.

  6. Sélectionnez le bouton Profil pour exécuter le travail de profilage pour la ressource de données sélectionnée.

    Capture d’écran de l’onglet Vue d’ensemble de la ressource de données, avec l’onglet Profil mis en évidence.

  7. Le moteur de recommandation d’IA suggère des colonnes potentiellement importantes sur lesquelles exécuter le profilage des données. Vous pouvez désélectionner les colonnes recommandées et/ou sélectionner d’autres colonnes à profiler.

    Capture d’écran des suggestions de colonne de profilage.

  8. Une fois que vous avez sélectionné les colonnes pertinentes, sélectionnez Exécuter le profil.

  9. Pendant l’exécution du travail, vous pouvez suivre sa progression à partir de la page de surveillance de la qualité des données dans le domaine de gouvernance.

  10. Une fois le travail terminé, sélectionnez l’onglet Profil dans le menu de gauche de la page de qualité des données de la ressource pour répertorier les résultats de profilage et les instantané statistiques. Il peut y avoir plusieurs pages de résultats de profil en fonction du nombre de colonnes de vos ressources de données.

    Capture d’écran de la page de profilage avec une colonne mise en surbrillance.

  11. Parcourez les résultats de profilage et les mesures statistiques pour chaque colonne.

    Capture d’écran de la instantané statistique pour une seule colonne.

Importante

Le format delta est généralement détecté automatiquement si le format est standard et correct dans les systèmes sources. Pour profiler le format de fichier Parquet ou iceberg, vous devez remplacer le type de ressource de données par Parquet ou iceberg. Comme indiqué dans la capture d’écran ci-dessous, modifiez le type de ressource de données par défaut Parquet ou un autre format pris en charge si le format de votre fichier de ressource de données n’est pas delta. Cette modification doit être effectuée avant de configurer le travail de profilage.

Capture d’écran de la sélection du type de ressource.

Étapes suivantes

  1. Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
  2. Configurez et exécutez une analyse de la qualité des données sur un produit de données pour évaluer la qualité de toutes les ressources prises en charge dans le produit de données.
  3. Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.