Se connecter à Azure Databricks Unity Catalog et le gérer dans Microsoft Purview
Cet article explique comment inscrire Azure Databricks et comment s’authentifier et interagir avec Azure Databricks Unity Catalog dans Microsoft Purview. Pour plus d’informations sur Microsoft Purview, consultez l’article d’introduction.
Fonctionnalités prises en charge
Extraction de métadonnées | Analyse complète | Analyse incrémentielle | Analyse délimitée | Classification | Étiquetage | Stratégie d’accès | Traçabilité | Partage de données | Affichage en direct |
---|---|---|---|---|---|---|---|---|---|
Oui | Oui | Oui | Oui | Oui | Non | Non | Oui | Non | Non |
Lors de l’analyse d’Azure Databricks Unity Catalog, Microsoft Purview prend en charge :
- Extraction de métadonnées techniques, notamment :
- Metastore
- Catalogues
- Schémas
- Tables incluant les colonnes
- Affichages, y compris les colonnes
- Extraction de la traçabilité des relations des ressources entre les tables, les vues et les colonnes pendant les exécutions du notebook.
Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité du catalogue Unity ou d’étendre l’analyse à un sous-ensemble de catalogues.
Remarque
Ce connecteur apporte des métadonnées d’Azure Databricks Unity Catalog. Pour analyser les métadonnées d’étendue de l’espace de travail Azure Databricks, consultez Connecteur de metastore Hive Azure Databricks.
Limitations connues
- Lorsque l’objet est supprimé de la source de données, l’analyse suivante ne supprime pas automatiquement la ressource correspondante dans Microsoft Purview.
- Pour plus d’informations sur les autres limitations liées à la traçabilité Native d’Azure Databricks, consultez la documentation Azure Databricks.
Configuration requise
Vous devez disposer d’un compte Azure avec un abonnement actif. Créez un compte gratuitement.
Vous devez disposer d’un compte Microsoft Purview actif.
Vous avez besoin d’un Key Vault Azure et d’accorder à Microsoft Purview des autorisations d’accès aux secrets.
Vous avez besoin des autorisations Administrateur de source de données et Lecteur de données pour inscrire une source et la gérer dans le portail de gouvernance Microsoft Purview. Pour plus d’informations sur les autorisations, consultez Contrôle d’accès dans Microsoft Purview.
Pour analyser Azure Databricks Unity Catalog, Microsoft Purview se connecte à un entrepôt SQL dans votre espace de travail et utilise le jeton d’accès personnel pour l’authentification. Vous devez disposer d’un espace de travail Azure Databricks qui est activé pour Unity Catalog et attaché au metastore que vous souhaitez analyser. Dans votre espace de travail Azure Databricks :
Créez un entrepôt SQL. Vous pouvez également utiliser l’entrepôt de démarrage créé automatiquement, le cas échéant.
Notez le chemin HTTP vers le bas. Vous pouvez le trouver dans l’espace de travail Azure Databricks -> SQL Warehouses -> votre entrepôt - Détails de> la connexion -> Chemin HTTP.
Assurez-vous que l’utilisateur dispose de l’autorisation Peut utiliser pour se connecter à l’entrepôt Azure Databricks SQL. Pour en savoir plus, consultez Contrôle d’accès de l’entrepôt SQL.
Pour récupérer la traçabilité à partir d’Azure Databricks à l’aide de Microsoft Purview, les prérequis suivants doivent être en place :
Activer le schéma système : le schéma système system.access doit être activé dans votre catalogue Unity. Cela est nécessaire, car les informations de traçabilité sont stockées dans des tables système et l’activation de ce schéma permet d’accéder à ces tables. En savoir plus sur la surveillance de l’utilisation des tables système.
Privilèges utilisateur : le compte d’utilisateur utilisé pour l’analyse doit disposer de privilèges SELECT sur les tables système suivantes :
system.access.table_lineage
system.access.column_lineage
Ces autorisations sont requises, car les données de traçabilité sont lues directement à partir des tables système et, sans l’accès nécessaire, Microsoft Purview ne peut pas récupérer les informations de traçabilité.
Si votre espace de travail Azure Databricks n’autorise pas l’accès à partir du réseau public ou si votre compte Microsoft Purview n’active pas l’accès à partir de tous les réseaux, vous pouvez utiliser managed Réseau virtuel Integration Runtime ou un runtime d’intégration auto-hébergé pris en charge par Kubernetes pour l’analyse. Vous pouvez configurer un point de terminaison privé managé pour Azure Databricks en fonction des besoins afin d’établir une connectivité privée.
Authentification pour une analyse
Vous pouvez utiliser des jetons d’accès personnels, des identités managées ou des méthodes d’authentification de principal de service pour analyser Azure Databricks Unity Catalog.
Si vous utilisez une identité managée affectée par le système ou l’utilisateur
- Sélectionnez l’identité managée affectée par le système ou affectée par l’utilisateur sous Informations d’identification.
Pour utiliser une identité managée affectée par l’utilisateur, vous devez configurer l’authentification des identités managées Azure pour Azure Databricks.
Pour tous les objets que vous souhaitez importer dans Microsoft Purview, l’utilisateur ou le principal de service doit avoir au moins le privilège SELECT sur les tables/vues, USE CATALOG sur le catalogue de l’objet et USE SCHEMA sur le schéma de l’objet.
Pour analyser tous les objets d’un metastore Unity Catalog, utilisez un utilisateur ou un principal de service avec le rôle d’administrateur du metastore. Pour plus d’informations, consultez Gérer les privilèges dans Unity Catalog et les privilèges et objets sécurisables Unity Catalog.
Pour la classification, l’utilisateur doit également disposer du privilège SELECT sur les tables/vues pour récupérer des exemples de données.
Inscrire
Cette section explique comment inscrire un espace de travail Azure Databricks dans Microsoft Purview à l’aide du portail de gouvernance Microsoft Purview.
Accédez à votre compte Microsoft Purview.
Sélectionnez Data Map dans le volet gauche.
Sélectionner Inscription.
Dans Inscrire des sources, sélectionnez Azure Databricks Unity Catalog>Continuer.
Dans l’écran Inscrire des sources (Azure Databricks Unity Catalog), procédez comme suit :
Pour Nom, entrez un nom que Microsoft Purview listera comme source de données.
Pour l’ID du metastore, fournissez l’ID de metastore pour le metastore Azure Databricks Unity Catalog que vous souhaitez analyser.
Sélectionnez une collection dans la liste.
- Sélectionnez Terminer.
Analyser
Conseil
Pour résoudre les problèmes liés à l’analyse :
- Vérifiez que vous avez suivi toutes les conditions préalables.
- Consultez notre documentation sur la résolution des problèmes d’analyse.
Procédez comme suit pour analyser Azure Databricks afin d’identifier automatiquement les ressources. Pour plus d’informations sur l’analyse en général, consultez Analyses et ingestion dans Microsoft Purview.
Accédez à Sources.
Sélectionnez l’instance Azure Databricks inscrite.
Sélectionnez + Nouvelle analyse.
Fournissez les détails suivants :
Nom : entrez un nom pour l’analyse.
Se connecter via le runtime d’intégration : choisissez le runtime d’intégration Azure par défaut, le runtime d’intégration de réseau virtuel managé ou un runtime d’intégration auto-hébergé pris en charge par Kubernetes que vous avez créé.
Informations d’identification : sélectionnez les informations d’identification pour vous connecter à votre source de données. Veillez à :
- Sélectionnez Jeton d’accès, Identité managée ou Principal de service.
- Vous pouvez créer des informations d’identification de jeton d’accès ou de principal de service lors de l’inscription d’une analyse. Pour plus d’informations, consultez Informations d’identification pour l’authentification source dans Microsoft Purview.
URL de l’espace de travail : Indiquez l’URL de l’espace de travail que vous souhaitez analyser.
Chemin HTTP : Spécifiez le chemin HTTP de Databricks SQL Warehouse auquel Microsoft Purview se connectera et effectuez l’analyse, par exemple
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
. Vous pouvez le trouver dans l’espace de travail Azure Databricks -> SQL Warehouses -> votre entrepôt - Détails de> la connexion -> Chemin HTTP.Extraction de traçabilité : Basculez l’extraction de traçabilité sur Activé pour extraire la traçabilité des ressources analysées.
Sélectionnez Tester la connexion pour valider les paramètres.
Cliquez sur Continuer.
Pour Déclencheur d’analyse, choisissez de configurer une planification ou d’exécuter l’analyse une seule fois.
Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.
Une fois l’analyse terminée, découvrez comment parcourir et rechercher des ressources.
Afficher vos analyses et exécutions d’analyse
Pour afficher les analyses existantes :
- Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
- Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
- Sélectionnez l’analyse qui contient les résultats que vous souhaitez afficher. Le volet affiche toutes les exécutions d’analyse précédentes, ainsi que les status et les métriques pour chaque exécution d’analyse.
- Sélectionnez l’ID d’exécution pour case activée les détails de l’exécution de l’analyse.
Gérer vos analyses
Pour modifier, annuler ou supprimer une analyse :
Accédez au portail Microsoft Purview. Dans le volet gauche, sélectionnez Mappage de données.
Sélectionnez la source de données. Vous pouvez afficher une liste des analyses existantes sur cette source de données sous Analyses récentes, ou vous pouvez afficher toutes les analyses sous l’onglet Analyses .
Sélectionnez l’analyse que vous souhaitez gérer. Vous pouvez ensuite :
- Modifiez l’analyse en sélectionnant Modifier l’analyse.
- Annulez une analyse en cours en sélectionnant Annuler l’exécution de l’analyse.
- Supprimez votre analyse en sélectionnant Supprimer l’analyse.
Remarque
- La suppression de votre analyse ne supprime pas les ressources de catalogue créées à partir d’analyses précédentes.
Parcourir et rechercher des ressources
Après avoir analysé votre Azure Databricks, vous pouvez parcourir Catalogue unifié ou rechercher Catalogue unifié pour afficher les détails et la traçabilité des ressources.
Lorsque vous naviguez par type de source, vous voyez deux entrées pour Azure Databricks Unity Catalog et Azure Databricks respectivement. Le premier contient les artefacts Unity Catalog, y compris le metastore et ses catalogues/schémas/tables/vues, tandis que le second contient les artefacts de l’espace de travail.
À partir de la ressource de l’espace de travail Azure Databricks, vous pouvez trouver le catalogue Unity associé sous l’onglet Propriétés. L’option inversée s’applique également.
Traçabilité
Lorsque vous parcourez une ressource Azure Databricks particulière, vous pouvez voir les notebooks qui ont capturé la traçabilité.
Accédez à l’onglet Ressource -> Traçabilité. Vous pouvez voir la traçabilité sur la ressource ou la ressource de table/vue Azure Databricks Notebook, le cas échéant.
Reportez-vous à la section Fonctionnalités prises en charge sur les scénarios de traçabilité Databricks Unity Catalog pris en charge. Pour plus d’informations sur la traçabilité en général, consultez le guide de l’utilisateur sur la traçabilité et la traçabilité des données.
Forum aux questions (FAQ)
La traçabilité au niveau des colonnes d’Unity Catalog est-elle capturée par Microsoft Purview ?
Microsoft Purview peut capturer la traçabilité au niveau de la table/vue Unity Catalog et au niveau de la colonne.
Je ne vois pas la traçabilité au niveau de la colonne, que se passe-t-il ?
La traçabilité au niveau des colonnes est générée lorsque votre notebook est exécuté à partir d’un cluster et n’est pas généré par le biais d’un entrepôt SQL.
Je reçois une erreur de délai d’expiration, que dois-je faire ?
Lorsqu’il y a un grand volume de ressources dans votre espace de travail, votre analyse peut échouer. Dans ce cas, vous pouvez limiter votre analyse à quelques catalogues à la fois, ce qui réduira le volume de ressources par analyse et permettra à vos analyses de se terminer.
Je viens d’exécuter mon notebook, mais Microsoft Purview n’a pas récupéré la traçabilité. Que se passe-t-il?
Databricks peut prendre quelques minutes pour mettre à jour les informations de traçabilité dans ses tables système après l’exécution de votre notebook. Microsoft Purview sera en mesure d’extraire la traçabilité une fois les tables système mises à jour.
Étapes suivantes
Maintenant que votre source est inscrite, utilisez les guides suivants pour en savoir plus sur Microsoft Purview et vos données :