Zone d’atterrissage de gestion des données
La zone d'atterrissage de la gestion des données est une fonction de gestion au cœur de l'analyse à l'échelle du cloud. Il est responsable de la gouvernance de votre plateforme d’analytique.
Votre zone d’atterrissage de gestion des données est un abonnement distinct qui possède les mêmes services standard d’une zone d’atterrissage Azure. Cela permet une gouvernance des données, via des robots, qui se connectent à vos lacs de données et au stockage Polyglot dans vos zones d’atterrissage des données. Le peering de réseaux virtuels connecte votre zone d’atterrissage de gestion des données à vos zones d’atterrissage de données et à votre abonnement de connectivité.
Cette architecture est un point de départ et vous pouvez la modifier pour répondre à vos besoins métier et techniques spécifiques lors de la planification de l’implémentation de votre zone d’atterrissage de gestion des données.
Remarque
La persistance polyglotte est un terme de stockage qui décrit votre choix entre différentes technologies de stockage/magasin de données pour prendre en charge vos différents types de données et leurs besoins de stockage. La persistance polyglotte illustre essentiellement l’idée qu’une application peut utiliser plus d’une base de données ou d’une technologie de stockage principale.
Important
Votre zone d’atterrissage de gestion des données doit être déployée comme un abonnement distinct sous un groupe d’administration avec la gouvernance adéquate. Vous pouvez ensuite contrôler la gouvernance au sein de votre organisation. L’accélérateur de zone d’atterrissage Azure illustre comment vous devez aborder les zones d’atterrissage Azure.
Gouvernance des données
Cloud Scale Analytics suggère d’utiliser Microsoft Purview. Vous pouvez également déployer des solutions Microsoft Partner pour gérer des fonctions de gouvernance des données spécifiques. Les fonctions clés à prendre en compte dans votre architecture incluent un catalogue de données global, la gestion des données de référence, le partage de données et les contrats, le catalogue d’API, la gestion de la qualité des données et un référentiel de modélisation des données.
Les produits de gouvernance des données des partenaires Microsoft qui nécessitent un déploiement dans un abonnement doivent être déployés dans le groupe de ressources de gouvernance des données au sein de la zone centrale de gestion des données.
Data Catalog
Le catalogue de données inscrit et conserve les informations sur les données dans un emplacement centralisé et les met à la disposition de l’organisation. Il garantit que les entreprises évitent les jeux de données en double causés par l’ingestion de données redondantes par différentes équipes de projet. Nous vous recommandons de créer un service de catalogue de données pour définir les métadonnées des produits de données stockés dans les zones d’atterrissage des données.
L'analyse à l'échelle du cloud dépend de Microsoft Purview pour enregistrer les sources de données de l'entreprise, les classer, assurer la qualité des données et offrir un accès sécurisé en libre-service.
Microsoft Purview est un service basé sur un locataire et peut communiquer avec chaque zone d’atterrissage de données en créant un réseau virtuel managé déployé dans la région de vos zones d’atterrissage de données. Vous pouvez déployer Azure Managed Virtual Network Integration Runtimes (IR) au sein des réseaux virtuels gérés de Microsoft Purview dans n'importe quelle région disponible de Microsoft Purview. À partir de là, le réseau virtuel géré IR peut utiliser des points de terminaison privés pour se connecter en toute sécurité aux sources de données prises en charge et les analyser. Pour plus d'informations, voir Utiliser le réseau virtuel géré avec votre compte Microsoft Purview. La création d'un RI de réseau virtuel géré au sein d'un réseau virtuel géré garantit que le processus d'intégration des données est isolé et sécurisé.
Lorsque vous utilisez Azure Databricks, nous vous recommandons d’utiliser catalogue Azure Databricks Unity en plus de Microsoft Purview. Azure Databricks Unity Catalog fournit des fonctionnalités de contrôle d’accès, d’audit, de traçabilité et de découverte de données centralisées dans les espaces de travail Databricks. Pour connaître les meilleures pratiques de configuration du catalogue Unity, consultez meilleures pratiques du catalogue Unity.
Remarque
Bien que cette documentation se concentre principalement sur l'utilisation de Microsoft Purview pour la gouvernance, les entreprises peuvent avoir investi dans d'autres produits, tels que Alation, Okera ou Collibra. Ces solutions sont basées sur un abonnement et nous vous recommandons de les déployer dans la zone d’atterrissage de gestion des données. N’oubliez pas qu’une intégration personnalisée peut être nécessaire.
Gestion des données de référence
Le contrôle de gestion des données de référence réside dans la zone d’atterrissage de gestion des données. La gestion des données de référence dans le maillage de données contient des considérations spécifiques que vous devez appeler pour le maillage de données.
De nombreuses solutions de gestion des données de référence s’intègrent parfaitement à Microsoft Entra ID. Cette intégration vous permet de sécuriser vos données et de fournir des vues différentes pour différents groupes d’utilisateurs.
Pour plus d’informations, consultez Système de gestion des données de référence.
Partage de données et contrats
L’analytique à l’échelle du cloud utilise la gestion des droits d’utilisation Microsoft Entra ou des stratégies Microsoft Purview pour contrôler l’accès au partage de données. Même si vous avez besoin d’un référentiel de partage et de contrat. Ce référentiel est une fonction organisationnelle et doit résider dans votre zone d’atterrissage de gestion des données.
Vos contrats doivent fournir des informations sur la validation des données, les modèles et les stratégies de sécurité.
Pour plus d’informations, consultez les contrats de données .
Catalogue d’API
Vos équipes d’applications de données créent différentes API pour leurs applications de données. Ces API peuvent être difficiles à détecter au sein de votre organisation. Le fait de placer un catalogue d’API dans votre zone d’atterrissage de gestion des données peut résoudre ce problème.
Un catalogue d’API permet de normaliser votre documentation et offre un emplacement pour la collaboration interne sur les API. Il peut également aider à dynamiser les contrôles de la consommation, de la publication et de la gouvernance au sein de votre organisation.
Gestion de la qualité des données
Poursuivez avec votre solution actuelle.
Gérez la qualité des données aussi près de la source de données que possible pour éviter que les problèmes de qualité se répartissent sur vos systèmes d’analyse et d’IA. En intégrant des métriques de qualité et une validation dans vos processus de données, vous alignez la gestion de la qualité avec les équipes les plus familières avec les données, ce qui vous permet de mieux comprendre et de mieux gérer les ressources de données.
La traçabilité des données offre également une confiance en la qualité des données et vous devez la fournir pour tous les produits de données.
Pour plus d’informations sur la gestion de la qualité des données, consultez Qualité des données.
Référentiel de modélisation des données
Vous devez capturer et stocker des modèles de relation d’entité dans un emplacement central dans votre zone d’atterrissage de gestion des données, fournissant aux consommateurs de données un emplacement unique pour trouver des diagrammes conceptuels.
De nombreux clients utilisent ER Studio et OrbusInfinity pour modéliser leurs produits de données avant l’ingestion.
Couche de service
Votre organisation peut décider de créer de nombreux services d’automatisation pour augmenter les fonctionnalités d’analytique à l’échelle du cloud. Ces services d’automatisation favorisent la conformité et l’intégration de solutions pour votre état d’analyse.
Si vous décidez de créer ces services d’automatisation, vous devez disposer d’une interface utilisateur qui agit à la fois comme une place de marché de données et une console d’opération. Cette interface doit s’appuyer sur un référentiel de métadonnées sous-jacentes, telles que les normes de métadonnées .
Votre place de marché de données ou votre console opérateur appelle un niveau intermédiaire de microservices pour faciliter l’intégration, l’inscription des métadonnées, l’approvisionnement de sécurité, le cycle de vie des données et l’observabilité.
Vous pouvez provisionner la couche de service du groupe de ressources pour héberger votre magasin de métadonnées.
Important
Aucun de ces services d’automatisation n’est des produits et n’illustre aucun élément de feuille de route. Ils sont répertoriés pour vous aider à prendre en compte les éléments que vous souhaiterez peut-être automatiser.
Service | Étendue du service |
---|---|
Approvisionnement de zone d’atterrissage des données | Ce service crée une zone d’atterrissage de données. Il est peu probable qu’elle ait une utilisation élevée, mais elle est incluse pour l’exhaustivité de la solution d’intégration de bout en bout. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud |
Intégration de produits de données | Ce service crée et modifie des groupes de ressources qui se rapportent à un locataire intégré. Il contient également des fonctionnalités de mise à niveau et de rétrogradation des références SKU et d’activation et de désactivation des groupes de ressources pour n’importe quel locataire ou service intégré. Il crée une zone d’atterrissage de données DevOps. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud |
Ingestion agnostique de données | Ce microservice crée de nouvelles sources de données pour l’ingestion dans vos zones d’atterrissage de données en communiquant avec un metastore Azure Data Factory SQL Database dans chaque zone d’atterrissage de données. Pour en savoir plus, consultez Comment les infrastructures d'ingestion automatisée prennent en charge l'analyse à l'échelle du cloud dans Azure |
Métadonnées | Ce service expose et crée des métadonnées pour la plateforme. Pour plus d’informations, consultez Normes des métadonnées |
Approvisionnement d’accès | Ce service crée des packages d’accès, des stratégies d’accès et des processus d’approbation d’accès aux ressources (manuels ou automatiques) à l’aide de SPN/UPN. Il peut également exposer une API pour fournir la liste des demandes d’abonnement (ressources) envoyées par les utilisateurs au cours des 90 derniers jours. Pour plus d’informations, consultez Gestion des accès aux données |
Cycle de vie des données | Ce service est responsable de la maintenance de votre cycle de vie des données en fonction des métadonnées. Cette maintenance peut inclure le déplacement de données vers le stockage froid et la suppression d’enregistrements qui n’ont plus besoin d’être conservés. Pour plus informations, consultez Gestion de cycle de vie des données |
Intégration du domaine de données | APPLICABLE UNIQUEMENT À DATA MESH. Ce service capture les métadonnées relatives aux nouveaux domaines et intègre les nouveaux domaines en fonction des besoins. Il peut également créer, mettre à jour, activer et désactiver n’importe quelle ligne de domaine ou de service que vous pouvez générer dans un microservice. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud |
Azure Container Registry
Votre zone d’atterrissage de gestion des données héberge une instance Azure Container Registry. Le Azure Container Registry permet à vos opérations de plateforme de données de déployer des conteneurs standard à utiliser dans les projets de science des données que vos équipes d’application de données consomment.