Gouvernance des données en utilisant Unity Catalog et Microsoft Purview
La gouvernance des données est essentielle pour garantir que les données au sein d’une organisation sont gérées en toute sécurité, efficace et conforme aux réglementations. Azure Databricks, combiné à Unity Catalog et Microsoft Purview, fournit une solution robuste pour gérer efficacement les données.
Outils de gouvernance des données
Vue d’ensemble de la façon dont la gouvernance des données peut être mise en œuvre en utilisant Unity Catalog et Microsoft Purview.
Unity Catalog
Unity Catalog est une fonctionnalité d’Azure Databricks qui offre une solution de gouvernance unifiée pour toutes les données et ressources d’IA. Il fournit un metastore centralisé qui gère les objets de données dans tous les espaces de travail d’une organisation.
Microsoft Purview
Microsoft Purview est un service unifié de gouvernance des données qui vous aide à gérer et à régir vos données locales, multiclouds et SaaS (software-as-a-service). Il fournit des fonctionnalités telles que la recherche de données, la classification des données, la traçabilité des données et la gouvernance de l’accès aux données.
Vue d’ensemble de Unity Catalog
Unity Catalog dans Azure Databricks est un metastore centralisé qui gère les métadonnées de toutes les données et ressources d’IA à travers les espaces de travail Databricks. Il permet des contrôles de sécurité précis et des stratégies de gouvernance à grande échelle, ce qui facilite la gestion des données à travers plusieurs équipes et projets en toute sécurité.
Fonctionnalités clés de Unity Catalog
Espace de noms unifié : Unity Catalog offre un espace de noms unique pour les jeux de données, les fichiers et les modèles d’apprentissage automatique à travers tous les espaces de travail, ce qui facilite la gestion et la découverte des ressources.
Contrôle d’accès affiné : Il permet aux administrateurs de définir des contrôles d’accès précis sur les données à l’aide d’instructions SQL GRANT et REVOKE standard, en s’alignant sur le principe du moindre privilège.
Traçabilité des données : Unity Catalog capture et affiche la traçabilité des données, ce qui est essentielle suivre le flux des données et comprendre leurs transformations au fil du temps.
Gestion centralisée des métadonnées : Gère toutes les métadonnées de manière centralisée, en veillant à ce que les définitions, les descriptions et d’autres métadonnées soient cohérentes à travers les projets et les espaces de travail.
Intégration à Databricks SQL : Unity Catalog est entièrement intégré à Databricks SQL, ce qui permet d’interroger et de gérer en toute transparence les ressources de données sans déplacer les données hors de la plateforme.
Présentation de Microsoft Purview
Microsoft Purview offre une suite d’outils de gouvernance des données conçus pour fournir visibilité, contrôle et insights sur l’utilisation des données au sein d’une organisation. Il vous aide à découvrir, classifier, protéger et surveiller les données, quel que soit leur emplacement.
Fonctionnalités clés de Microsoft Purview pour Azure Databricks
Découverte et classification des données : Analysez et classifiez automatiquement les données dans votre environnement Azure Databricks à l’aide de classifieurs intégrés, et créez également des classifieurs personnalisés.
Traçabilité des données : Fournit une visibilité détaillée sur la traçabilité des données, montrant comment les données sont transformées et déplacées à travers différents systèmes et processus, notamment au sein d’Azure Databricks.
Data Map : Agrège les métadonnées de différentes sources de données dans un catalogue pouvant faire l’objet d’une recherche, ce qui permet aux utilisateurs de comprendre le paysage des données et ses relations.
Gestion des accès et des stratégies : Permet la création de stratégies de gouvernance qui appliquent la façon dont les données sont accessibles et utilisées dans Azure Databricks et d’autres systèmes intégrés.
Insights et rapports : Fournit des rapports détaillés sur la découverte des données, la classification de confidentialité et l'analyse des accès, ce qui permet de garantir la conformité et d’optimiser les stratégies de gouvernance des données.