Partager via


Configurer la connexion à la source de données pour connecter des sources de données pour l’évaluation de la qualité des données

Les connexions à la source de données configurent l’authentification nécessaire pour profiler vos données à des fins de instantané statistiques, ou analysent vos données à la recherche d’anomalies de qualité des données et de scoring.

La configuration des connexions à la source de données est la quatrième étape du cycle de vie de qualité des données pour une ressource de données. Les étapes précédentes sont les suivantes :

  1. Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
  2. Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
  3. Ajouter votre ressource de données à un produit de données

Configuration requise

  1. Pour créer des connexions à des ressources de données, vos utilisateurs doivent avoir le rôle de gestionnaire de la qualité des données.
  2. Vous avez besoin au moins d’un accès en lecture à la source de données pour laquelle vous configurez la connexion.

Sources de données multicloud prises en charge

  • Azure Data Lake Storage Gen2
    • Types de fichiers : Delta Parquet et Parquet
  • Base de données Azure SQL
  • Patrimoine de données fabric dans OneLake, y compris le raccourci et le patrimoine de données de mise en miroir. L’analyse de la qualité des données est prise en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
    • Mise en miroir du patrimoine de données : Cosmos DB, Snowflake, Azure SQL
    • Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2
  • Azure Synapse serverless et l’entrepôt de données
  • Catalogue Unity d' Azure Databricks
  • Flocon de neige
  • Google Big Query (préversion privée)

Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4.

Importante

Pour accéder à ces sources, vous devez soit définir vos sources de stockage Azure pour qu’elles disposent d’un pare-feu ouvert, pour Autoriser les services Azure approuvés, soit utiliser des points de terminaison privés, suivez les instructions décrites dans le guide de configuration du réseau virtuel managé de qualité des données.

Configurer la connexion à la source de données

  1. Dans Catalogue unifié, sélectionnez Gestion de l’intégrité, puis Qualité des données.

  2. Sélectionnez un domaine de gouvernance dans la liste.

  3. Dans la liste déroulante Gérer, sélectionnez Connections pour ouvrir la page connexions.

    Capture d’écran de la page connexions dans Qualité des données Microsoft Purview.

  4. Sélectionnez Nouveau pour créer une connexion pour les produits de données et les ressources de données de votre domaine de gouvernance.

    Capture d’écran de la page configurer la connexion dans Qualité des données Microsoft Purview.

  5. Dans le volet droit, entrez les informations suivantes :

    • Nom d’affichage
    • Description
  6. Sélectionnez Type de source, puis sélectionnez l’une des sources de données.

  7. En fonction de la source de données, entrez les détails de l’accès.

  8. Si le test de connexion réussit, envoyez la configuration de la connexion pour terminer la configuration de la connexion.

Conseil

Vous pouvez également créer une connexion à vos ressources à l’aide de points de terminaison privés et d’un réseau virtuel géré Qualité des données Microsoft Purview. Pour plus d’informations, consultez l’article Réseau virtuel managé.

Les étapes de configuration de la connexion varient pour les connecteurs natifs. Consultez les étapes de configuration de la connexion des documents des connecteurs natifs pour configurer la connexion pour les connecteurs Azure Databricsks, Snowflake, GoogBigQuery et synapse.

Accorder des autorisations Microsoft Purview sur la source

Maintenant que la connexion est créée, pour pouvoir analyser les sources de données, votre identité managée Microsoft Purview a besoin d’autorisations sur vos sources de données :

Étapes suivantes

  1. Configurez et exécutez le profilage des données pour une ressource dans votre source de données.
  2. Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
  3. Configurez et exécutez une analyse de la qualité des données sur un produit de données pour évaluer la qualité de toutes les ressources prises en charge dans le produit de données.
  4. Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.