Configurer la connexion à la source de données pour connecter des sources de données pour l’évaluation de la qualité des données
Les connexions à la source de données configurent l’authentification nécessaire pour profiler vos données à des fins de instantané statistiques, ou analysent vos données à la recherche d’anomalies de qualité des données et de scoring.
La configuration des connexions à la source de données est la quatrième étape du cycle de vie de qualité des données pour une ressource de données. Les étapes précédentes sont les suivantes :
- Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
- Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
- Ajouter votre ressource de données à un produit de données
Configuration requise
- Pour créer des connexions à des ressources de données, vos utilisateurs doivent avoir le rôle de gestionnaire de la qualité des données.
- Vous avez besoin au moins d’un accès en lecture à la source de données pour laquelle vous configurez la connexion.
Sources de données multicloud prises en charge
- Azure Data Lake Storage Gen2
- Types de fichiers : Delta Parquet et Parquet
- Base de données Azure SQL
- Patrimoine de données fabric dans OneLake, y compris le raccourci et le patrimoine de données de mise en miroir. L’analyse de la qualité des données est prise en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
- Mise en miroir du patrimoine de données : Cosmos DB, Snowflake, Azure SQL
- Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2
- Azure Synapse serverless et l’entrepôt de données
- Catalogue Unity d' Azure Databricks
- Flocon de neige
- Google Big Query (préversion privée)
Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4.
Importante
Pour accéder à ces sources, vous devez soit définir vos sources de stockage Azure pour qu’elles disposent d’un pare-feu ouvert, pour Autoriser les services Azure approuvés, soit utiliser des points de terminaison privés, suivez les instructions décrites dans le guide de configuration du réseau virtuel managé de qualité des données.
Configurer la connexion à la source de données
Dans Catalogue unifié, sélectionnez Gestion de l’intégrité, puis Qualité des données.
Sélectionnez un domaine de gouvernance dans la liste.
Dans la liste déroulante Gérer, sélectionnez Connections pour ouvrir la page connexions.
Sélectionnez Nouveau pour créer une connexion pour les produits de données et les ressources de données de votre domaine de gouvernance.
Dans le volet droit, entrez les informations suivantes :
- Nom d’affichage
- Description
Sélectionnez Type de source, puis sélectionnez l’une des sources de données.
En fonction de la source de données, entrez les détails de l’accès.
Si le test de connexion réussit, envoyez la configuration de la connexion pour terminer la configuration de la connexion.
Conseil
Vous pouvez également créer une connexion à vos ressources à l’aide de points de terminaison privés et d’un réseau virtuel géré Qualité des données Microsoft Purview. Pour plus d’informations, consultez l’article Réseau virtuel managé.
Les étapes de configuration de la connexion varient pour les connecteurs natifs. Consultez les étapes de configuration de la connexion des documents des connecteurs natifs pour configurer la connexion pour les connecteurs Azure Databricsks, Snowflake, GoogBigQuery et synapse.
Accorder des autorisations Microsoft Purview sur la source
Maintenant que la connexion est créée, pour pouvoir analyser les sources de données, votre identité managée Microsoft Purview a besoin d’autorisations sur vos sources de données :
Pour analyser Azure Data Lake Storage Gen2, le rôle lecteur de données blob de stockage doit être attribué à Microsoft Purview Managed Identity. Vous pouvez suivre les étapes de la page source pour attribuer des autorisations d’identité managée.
Pour analyser une base de données Azure SQL, attribuez db_datareader rôle à l’identité managée Microsoft Purview. Vous pouvez suivre les étapes de la page source pour attribuer des autorisations d’identité managée.
Contenu associé
- Data Quality for Fabric Data Estate
- Qualité des données pour les sources de données mises en miroir fabric
- Sources de données de raccourci qualité des données pour fabric
- Qualité des données pour Azure Synapse entrepôts de données et serverless
- Qualité des données pour Azure Databricks Unity Catalog
- Qualité des données pour les sources de données Snowflake
- Qualité des données pour Google Big Query
Étapes suivantes
- Configurez et exécutez le profilage des données pour une ressource dans votre source de données.
- Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
- Configurez et exécutez une analyse de la qualité des données sur un produit de données pour évaluer la qualité de toutes les ressources prises en charge dans le produit de données.
- Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.