Partager via


Qualité des données pour les bases de données Databricks Unity Catalog

Pour utiliser Unity Catalog, votre espace de travail Azure Databricks doit être activé pour Unity Catalog, ce qui signifie que l’espace de travail est attaché à un metastore Unity Catalog. Tous les nouveaux espaces de travail sont activés automatiquement pour Unity Catalog lors de la création, mais les anciens espaces de travail peuvent nécessiter qu’un administrateur de compte active Unity Catalog manuellement. Que votre espace de travail ait été activé automatiquement pour Unity Catalog, les étapes suivantes sont également nécessaires pour commencer à utiliser Unity Catalog :

  • Créez des catalogues et des schémas pour contenir des objets de base de données tels que des tables et des volumes.
  • Créez des emplacements de stockage managés pour stocker les tables et volumes managés dans ces catalogues et schémas.
  • Accordez à l’utilisateur l’accès aux catalogues, schémas et objets de base de données.

Les espaces de travail qui sont automatiquement activés pour Unity Catalog approvisionnent un catalogue d’espaces de travail avec des privilèges étendus accordés à tous les utilisateurs de l’espace de travail. Ce catalogue est un point de départ pratique pour essayer Unity Catalog.

Pour obtenir des instructions de configuration détaillées, consultez Configurer et gérer Unity Catalog.

Lors de l’analyse d’Azure Databricks Unity Catalog, Microsoft Purview prend en charge :

  • Metastore
  • Catalogues
  • Schémas
  • Tables incluant les colonnes
  • Affichages, y compris les colonnes

Lors de la configuration de l’analyse, vous pouvez choisir d’analyser l’intégralité du catalogue Unity ou d’étendre l’analyse à un sous-ensemble de catalogues.

Configurer l’analyse data map pour cataloguer les données databricks Unity Catalog dans Microsoft Purview

  • Inscrire un espace de travail Azure Databricks dans Microsoft Purview
  • Analyser l’espace de travail Azure Databricks inscrit
    • Entrez le nom de l’analyse
    • Sélectionner unity catalog comme méthode d’extraction
    • Se connecter via le runtime d’intégration (Runtime d’intégration Azure, Ir de réseau virtuel managé ou un runtime d’intégration auto-hébergé pris en charge par Kubernetes que vous avez créé)
    • Sélectionnez Authentification par jeton d’accès lors de la création d’informations d’identification. Pour plus d’informations, consultez Informations d’identification pour l’authentification source dans Microsoft Purview.
    • Spécifiez le chemin HTTP de Databricks SQL Warehouse auquel Microsoft Purview se connectera et effectuez l’analyse
    • Dans la page Étendue de votre analyse, sélectionnez les catalogues que vous souhaitez analyser.
    • Sélectionnez un ensemble de règles d’analyse pour la classification. Vous pouvez choisir entre le système par défaut et les ensembles de règles personnalisés existants ou créer un nouvel ensemble de règles inline. Consultez l’article Classification pour en savoir plus.
    • Pour Déclencheur d’analyse, choisissez de configurer une planification ou d’exécuter l’analyse une seule fois.
    • Passez en revue votre analyse et sélectionnez Enregistrer et exécuter.
  • Affichez vos analyses et analysez l’exécution pour terminer le catalogage de vos données.

Une fois analysée, la ressource de données dans Unity Catalog (UC) sera disponible sur Catalogue unifié Microsoft Purview recherche. Pour plus d’informations sur la connexion et la gestion d’Azure Databricks Unity Catalog dans Microsoft Purview, suivez ce document.

Importante

  • Sélectionnez Authentification par jeton d’accès lors de la création d’informations d’identification.
  • Placez le jeton d’accès sur votre Key Vault Azure hébergé et connectez le coffre de clés au gestionnaire de connexions.
  • Veillez à fournir un accès en lecture (secret) MSI de produit (service) au Key Vault.

Configurer la connexion à databricks UC pour l’analyse de la qualité des données

À ce stade, nous avons la ressource analysée prête pour le catalogage et la gouvernance. Associez la ressource analysée au produit de données dans un sele de domaine de gouvernance. Sous l’onglet Qualité des données, ajoutez un nouveau Azure SQL Connexion à la base de données : obtenir le nom de la base de données entré manuellement.

  1. Sélectionnez l’onglet Gestion du domaine > de gouvernance de la qualité > des données pour créer la connexion.

  2. Configurez la connexion dans la page de connexion.

    • Ajouter le nom et la description de la connexion
    • sélectionner le type de source Azure Databricks
    • sélectionner l’URL de l’espace de travail
    • sélectionner le catalogue Unity comme méthode d’extraction
    • sélectionner le chemin d’accès HTTP
    • sélectionner le nom du catalogue unity
    • sélectionner le nom du schéma
    • sélectionner le nom de la table
    • sélectionner la méthode d’authentification - Jeton d’accès
      • Ajouter un abonnement Azure
      • Connexion au coffre de clés
      • nom du secret
      • version du secret
  3. Tester la connexion

Capture d’écran montrant comment configurer la connexion databricks UC.

Capture d’écran montrant comment configurer le jeton de connexion databricks.

Importante

  • Les gestionnaires de la qualité des données ont besoin d’un accès en lecture seule à Azure Databrics Unity Catalog pour configurer une connexion de qualité des données.
  • Le réseau virtuel n’est pas encore pris en charge.

Profilage et analyse de la qualité des données dans les bases de données Azure Databricks Unity Catalog.

Une fois la configuration de la connexion terminée, vous pouvez profiler, créer et appliquer des règles, et exécuter une analyse DQ de vos données dans les bases de données Azure Databricks Unity Catalog. Suivez les instructions pas à pas décrites dans les documents ci-dessous :

Documents de référence