Qualité des données pour Google BigQuery (préversion)
Fonctionnalités prises en charge
Lors de l’analyse de la source Google BigQuery, Microsoft Purview prend en charge :
- Extraction de métadonnées techniques, notamment :
- Projets et jeux de données
- Tables incluant les colonnes
- Affichages, y compris les colonnes
- Extraction de la traçabilité statique sur les relations de ressources entre les tables et les vues.
Lors de la configuration de l’analyse, vous pouvez choisir d’analyser un projet Google BigQuery entier. Vous pouvez également limiter l’analyse à un sous-ensemble de jeux de données correspondant aux noms donnés ou à des modèles de noms.
Limitations connues
- Actuellement, Microsoft Purview prend uniquement en charge l’analyse des jeux de données Google BigQuery dans un emplacement multirégion aux États-Unis. Si le jeu de données spécifié se trouve à un autre emplacement, par exemple, us-east1 ou EU, vous observez que l’analyse est terminée, mais qu’aucune valeur n’est affichée dans Microsoft Purview.
- Lorsque l’objet est supprimé de la source de données, l’analyse suivante n’est pas automatiquement supprimée de la ressource correspondante dans Microsoft Purview.
Configurer l’analyse de datamap pour cataloguer les données Google BigQuery dans Microsoft Purview
Inscrire un projet Google BigQuery
- Ouvrez Microsoft Purview, puis sélectionnez Data Map dans le volet de navigation de gauche.
- Sélectionner Inscription.
- Dans Inscrire des sources, sélectionnez Google BigQuery. Cliquez sur Continuer.
- Entrez un Nom indiquant que la source de données sera répertoriée dans le catalogue.
- Entrez projectID. Il doit s’agir d’un ID de projet complet. Par exemple, mydomain.com : myProject
- Sélectionnez une collection dans la liste.
- Sélectionner Inscription.
Configurer une analyse de datamap pour le projet Google BigQuery
- Vérifiez qu’un runtime d’intégration auto-hébergé est configuré. S’il n’est pas configuré, suivez les étapes mentionnées dans Prérequis
- Accédez à Sources.
- Sélectionnez le projet BigQuery inscrit.
- Sélectionnez + Nouvelle analyse.
- Fournissez les détails ci-dessous :
- Nom : nom de l’analyse
- Se connecter via le runtime d’intégration : sélectionnez le runtime d’intégration auto-hébergé configuré
- Informations d’identification : lors de la configuration des informations d’identification BigQuery, veillez à :
- Sélectionnez Authentification de base comme méthode d’authentification
- Indiquez l’ID d’e-mail du compte de service dans le champ Nom d’utilisateur. Par exemple, xyz@developer.gserviceaccount.com
- Suivez les étapes ci-dessous pour générer la clé privée. Copiez l’intégralité du fichier de clé JSON et stockez-le en tant que valeur d’un secret Key Vault.
- Pour créer une clé privée à partir de la plateforme cloud de Google :
- Dans le menu de navigation, sélectionnez IAM (Identity Access Management), puis Administration --> Comptes de service --> Sélectionner un projet -->
- Sélectionnez l’adresse e-mail du compte de service pour lequel vous souhaitez créer une clé.
- Sélectionnez l’onglet Clés.
- Sélectionnez le menu déroulant Ajouter une clé, puis sélectionnez Créer une nouvelle clé.
- Choisissez le format JSON.
- Spécifiez le chemin d’accès à l’emplacement du pilote JDBC (Java Database Connectivity) sur votre ordinateur où le runtime d’intégration auto-hôte est en cours d’exécution. Par exemple : D :\Drivers\GoogleBigQuery.
- Spécifiez une liste de jeux de données BigQuery à importer. Par exemple, dataset1 ; dataset2. Lorsque la liste est vide, tous les jeux de données disponibles sont importés.
- Mémoire maximale (en Go) disponible sur votre machine virtuelle (machine virtuelle) à utiliser par les processus d’analyse. Cela dépend de la taille du projet Google BigQuery à analyser.
- Sélectionnez Tester la connexion.
- Cliquez sur Continuer.
- Choisissez votre déclencheur d’analyse. Vous pouvez configurer une planification ou exécuter l’analyse une seule fois.
- Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.
Une fois analysées, les ressources de données dans le projet Google BigQuery seront disponibles sur la recherche Catalogue unifié. Pour plus d’informations sur la connexion et la gestion de Google BigQuery dans Microsoft Purview, suivez ce document.
Importante
La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.
Configurer la connexion au projet Google BigQuery pour l’analyse de la qualité des données
À ce stade, nous avons la ressource analysée prête pour le catalogage et la gouvernance. Associez les ressources analysées aux produits de données dans un domaine de gouvernance pour configurer l’analyse de la qualité des données.
Sélectionnez l’onglet Gestion du domaine > de gouvernance de la qualité > des données pour créer la connexion.
Configurer la connexion
- Ajouter le nom et la description de la connexion
- Sélectionner le type de source Google BigQuery
- Ajouter l’ID de projet, le nom du jeu de données et le nom de la table
- Sélectionnez Clé privée du compte de service
- Ajouter un abonnement Azure
- Connexion au coffre de clés
- nom du secret
- version du secret
Tester la connexion pour que la connexion à la source de données soit correctement configurée.
Importante
Les gestionnaires de la qualité des données ont besoin d’un accès en lecture seule à Google BigQuery pour configurer une connexion de qualité des données. Les points de terminaison de réseau virtuel et privé ne sont pas encore pris en charge pour la source de données Google BigQuery pour le service d’analyse de la qualité des données.
Profilage et analyse de la qualité des données dans Google BigQuery
Une fois la configuration de la connexion terminée, vous pouvez profiler, créer et appliquer des règles, et exécuter l’analyse de la qualité des données de vos données dans Google BigQuery. Suivez les instructions pas à pas décrites dans les documents ci-dessous :
- Comment configurer et exécuter le profilage des données de vos données
- Comment configurer et exécuter l’analyse de la qualité des données