Partage via


Configurer la connexion à la source de données pour connecter des sources de données pour l’évaluation de la qualité des données

Les connexions à la source de données configurent l’authentification nécessaire pour profiler vos données à des fins de instantané statistiques, ou analysent vos données à la recherche d’anomalies de qualité des données et de scoring.

La configuration des connexions à la source de données est la quatrième étape du cycle de vie de qualité des données pour une ressource de données. Les étapes précédentes sont les suivantes :

  1. Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
  2. Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
  3. Ajouter votre ressource de données à un produit de données

Configuration requise

  1. Pour créer des connexions à des ressources de données, vos utilisateurs doivent avoir le rôle de gestionnaire de la qualité des données.
  2. Vous avez besoin au moins d’un accès en lecture à la source de données pour laquelle vous configurez la connexion.

Sources de données multicloud prises en charge

Parcourez le document de source de données pris en charge pour afficher la liste des sources de données prises en charge, y compris les formats de fichier pour le profilage des données et l’analyse de la qualité des données, avec et sans prise en charge du réseau virtuel.

Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4.

Importante

Pour accéder à ces sources, vous devez soit définir vos sources de stockage Azure pour qu’elles disposent d’un pare-feu ouvert, pour Autoriser les services Azure approuvés, soit utiliser des points de terminaison privés, suivez les instructions décrites dans le guide de configuration du réseau virtuel managé de qualité des données.

Configurer la connexion à la source de données

  1. Dans Catalogue unifié, sélectionnez Gestion de l’intégrité, puis Qualité des données.

  2. Sélectionnez un domaine de gouvernance dans la liste.

  3. Dans la liste déroulante Gérer, sélectionnez Connections pour ouvrir la page connexions.

    Capture d’écran de la page connexions dans Qualité des données Microsoft Purview.

  4. Sélectionnez Nouveau pour créer une connexion pour les produits de données et les ressources de données de votre domaine de gouvernance.

    Capture d’écran de la page configurer la connexion dans Qualité des données Microsoft Purview.

  5. Dans le volet droit, entrez les informations suivantes :

    • Nom d’affichage
    • Description
  6. Sélectionnez Type de source, puis sélectionnez l’une des sources de données.

  7. En fonction de la source de données, entrez les détails de l’accès.

  8. Si le test de connexion réussit, envoyez la configuration de la connexion pour terminer la configuration de la connexion.

Conseil

Vous pouvez également créer une connexion à vos ressources à l’aide de points de terminaison privés et d’un réseau virtuel géré Qualité des données Microsoft Purview. Pour plus d’informations, consultez l’article Réseau virtuel managé.

Les étapes de configuration de la connexion varient pour les connecteurs natifs. Consultez les étapes de configuration de la connexion des documents des connecteurs natifs pour configurer la connexion pour les connecteurs Azure Databricsks, Snowflake, GoogBigQuery et synapse.

Accorder des autorisations Microsoft Purview sur la source

Maintenant que la connexion est créée, pour pouvoir analyser les sources de données, votre identité managée Microsoft Purview a besoin d’autorisations sur vos sources de données :

Étapes suivantes

  1. Configurez et exécutez le profilage des données pour une ressource dans votre source de données.
  2. Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
  3. Configurez et exécutez une analyse de la qualité des données sur un produit de données pour évaluer la qualité de toutes les ressources prises en charge dans le produit de données.
  4. Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.