Vue d’ensemble de la zone d’atterrissage de gestion des données d’analytique à l’échelle du cloud
La zone d'atterrissage de la gestion des données est une fonction de gestion et est au cœur de l'analyse à l'échelle du cloud. Il est responsable de la gouvernance de votre plateforme d’analytique.
Votre zone d’atterrissage de gestion des données est un abonnement distinct qui possède les mêmes services standard d’une zone d’atterrissage Azure. Cela permet une gouvernance des données, via des robots, qui se connectent à vos lacs de données et au stockage Polyglot dans vos zones d’atterrissage des données. Le peering de réseaux virtuels connecte votre zone d’atterrissage de gestion des données à vos zones d’atterrissage de données et à votre abonnement de connectivité.
Utilisez cette architecture comme point de départ. Téléchargez le fichier Visio et modifiez-le en fonction de vos besoins métier et techniques spécifiques au moment de planifier l’implémentation de votre zone d’atterrissage de gestion des données.
Remarque
La persistance polyglotte est un terme de stockage décrivant votre choix entre différentes technologies de stockage des données/magasins de données pour prendre en charge vos différents types de données et leurs besoins de stockage. La persistance polyglotte illustre essentiellement l’idée qu’une application peut utiliser plus d’une base de données ou d’une technologie de stockage principale.
Important
Votre zone d’atterrissage de gestion des données doit être déployée comme un abonnement distinct sous un groupe d’administration avec la gouvernance adéquate. Vous pouvez ensuite contrôler la gouvernance au sein de votre organisation. L’accélérateur de zone d’atterrissage Azure illustre comment vous devez aborder les zones d’atterrissage Azure.
Data Catalog
Groupe de ressources : governance-rg
Le catalogue de données inscrit et conserve les informations sur les données dans un emplacement centralisé et les met à la disposition de l’organisation. Il garantit que les entreprises évitent les jeux de données en double causés par l’ingestion de données redondantes par différentes équipes de projet.
Nous vous recommandons de créer un service de catalogue de données pour définir les métadonnées des produits de données stockés dans les zones d'atterrissage des données.
L'analyse à l'échelle du cloud dépend de Microsoft Purview pour enregistrer les sources de données de l'entreprise, les classer, assurer la qualité des données et offrir un accès sécurisé en libre-service.
Microsoft Purview est un service basé sur les locataires et peut communiquer avec chaque zone d'atterrissage des données en créant un réseau virtuel géré déployé dans la région de vos zones d'atterrissage des données. Vous pouvez déployer Azure Managed Virtual Network Integration Runtimes (IR) au sein des réseaux virtuels gérés de Microsoft Purview dans n'importe quelle région disponible de Microsoft Purview. À partir de là, le réseau virtuel géré IR peut utiliser des points de terminaison privés pour se connecter en toute sécurité aux sources de données prises en charge et les analyser. Pour plus d'informations, voir Utiliser le réseau virtuel géré avec votre compte Microsoft Purview. La création d'un RI de réseau virtuel géré au sein d'un réseau virtuel géré garantit que le processus d'intégration des données est isolé et sécurisé.
Remarque
Bien que cette documentation se concentre principalement sur l'utilisation de Microsoft Purview pour la gouvernance, les entreprises peuvent avoir investi dans d'autres produits, tels que Alation, Okera ou Collibra. Ces solutions sont basées sur des abonnements et nous vous recommandons de les déployer dans la zone d'atterrissage de la gestion des données. N’oubliez pas qu’une intégration personnalisée peut être nécessaire.
Pour plus d’informations, consultez Catalogue de données et Les bonnes pratiques de déploiement de Microsoft Purview pour l’analytique à l’échelle du cloud.
Gestion de la qualité des données
Groupe de ressources : governance-rg2
Poursuivez avec votre solution actuelle.
Vous devez gérer la qualité des données aussi près que possible de votre source de données afin d’éviter les problèmes de qualité qui se répliquent dans votre patrimoine analytique et d’IA. Le déplacement des métriques de qualité et de la validation vers votre intégration des données permet d’aligner le processus de qualité avec les équipes les plus proches de vos données. Ces équipes ont une compréhension approfondie de votre ressource de données.
La traçabilité des données assure également la fiabilité de la qualité des données et vous devez la fournir pour tous les produits de données et tous les produits.
Pour plus d’informations sur la gestion de la qualité des données, consultez Qualité des données.
Référentiel de modélisation des données
Groupe de ressources : governance-rg2
Vous devez capturer et stocker des modèles de relation d’entité dans un emplacement central dans votre zone d’atterrissage de gestion des données. Cela fournit aux consommateurs de données un emplacement unique pour rechercher des diagrammes conceptuels.
De nombreux clients utilisent ER Studio et iServer pour modéliser leurs produits de données avant l’ingestion.
Gestion des données de référence
Groupe de ressources : governance-rg2
Le contrôle de gestion des données de référence réside dans la zone d’atterrissage de gestion des données. La gestion des données de référence dans le maillage de données contient des considérations spécifiques que vous devez appeler pour le maillage de données.
De nombreuses solutions de gestion des données de référence s’intègrent parfaitement à Microsoft Entra ID. Cette intégration vous permet de sécuriser vos données et de fournir des vues différentes pour différents groupes d’utilisateurs.
Pour plus d’informations, consultez Système de gestion des données de référence.
Catalogue d’API
Groupe de ressources : governance-rg2
Vos équipes d’application de données créeront probablement différentes API pour leur application de données. Ces API peuvent être difficiles à détecter au sein de votre organisation. Le fait de placer un catalogue d’API dans votre zone d’atterrissage de gestion des données peut résoudre ce problème.
Un catalogue d’API permet de normaliser votre documentation et offre un emplacement pour la collaboration interne sur les API. Il peut également aider à dynamiser les contrôles de la consommation, de la publication et de la gouvernance au sein de votre organisation.
Partage de données et contrats
Groupe de ressources : governance-rg2
L’analytique à l’échelle du cloud utilise la gestion des droits d’utilisation Microsoft Entra ou des stratégies Microsoft Purview pour contrôler l’accès au partage de données. Même si vous avez besoin d’un référentiel de partage et de contrat. Ce référentiel est une fonction organisationnelle et doit résider dans votre zone d’atterrissage de gestion des données.
Vos contrats doivent fournir des informations sur la validation des données, les modèles et les stratégies de sécurité.
Pour plus d’informations, consultez Contrats de données
Azure Container Registry
Groupe de ressources : containers-rg
Votre zone d’atterrissage de gestion des données héberge une instance Azure Container Registry. Le Azure Container Registry permet à vos opérations de plateforme de données de déployer des conteneurs standard à utiliser dans les projets de science des données que vos équipes d’application de données consomment.
Hubs Azure Synapse Private Link
Groupe de ressources : synapse-link-rg
Les hubs Azure Synapse Analytics Private Link sont des ressources Azure qui connectent votre réseau sécurisé et l’expérience web d’Azure Synapse Studio. L’analytique à l’échelle du cloud connecte en toute sécurité votre Réseau virtuel Azure à Azure Synapse Studio à l’aide de liens privés à partir de ces hubs.
Il y a deux étapes pour vous connecter à Azure Synapse Studio à l’aide de liaisons privées.
- Créez une ressource hub Private Link.
- Créez un point de terminaison privé à partir de votre réseau virtuel Azure vers un hub Private Link.
Vous pouvez ensuite utiliser des points de terminaison privés pour communiquer en toute sécurité avec Azure Synapse Studio. Intégrez les points de terminaison privés à votre solution DNS, soit avec votre solution locale, soit avec Azure DNS privé.
Pour plus d’informations, consultez Se connecter à Azure Synapse Studio à l’aide de liaisons privées.
Interfaces d’automatisation (facultatif)
Votre organisation peut décider de créer de nombreux services d’automatisation pour augmenter les fonctionnalités d’analytique à l’échelle du cloud. Ces services d’automatisation favorisent la conformité et l’intégration de solutions pour votre état d’analyse.
Si vous décidez de créer ces services d’automatisation, vous devez disposer d’une interface utilisateur qui agit à la fois comme une place de marché de données et une console d’opération. Cette interface doit s’appuyer sur un magasin de métadonnées sous-jacent comme nous l’avons vu précédemment dans les normes de métadonnées.
Votre place de marché de données ou votre console opérateur appelle un niveau intermédiaire de microservices pour faciliter l’intégration, l’inscription des métadonnées, l’approvisionnement de sécurité, le cycle de vie des données et l’observabilité.
Vous pouvez provisionner le groupe de ressources automationdb-rg pour héberger votre magasin de métadonnées.
Important
Aucun de ces services d’automatisation n’est produit et n’illustre aucun élément de feuille de route. Ils sont répertoriés pour vous aider à prendre en compte les éléments que vous souhaiterez peut-être automatiser.
Services
Service | Étendue du service |
---|---|
Approvisionnement de zone d’atterrissage des données | Ce service crée une zone d’atterrissage de données. Il est peu probable qu’elle ait une utilisation élevée, mais elle est incluse pour l’exhaustivité de la solution d’intégration de bout en bout. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud |
Intégration de produits de données | Ce service crée et modifie des groupes de ressources qui se rapportent à un locataire intégré. Il contient également des fonctionnalités permettant de mettre à niveau et de dégrader les références SKU et d’activer et de désactiver des groupes de ressources pour n’importe quel locataire ou service intégré. Il crée une zone d’atterrissage de données DevOps. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud |
Approvisionnement d’accès | Ce service crée des packages d’accès, des stratégies d’accès et un processus d’approbation d’accès aux ressources (manuel ou automatique) à l’aide du SPN/UPN. Il peut également exposer une API pour fournir une liste de demandes d’abonnement (ressources) que les utilisateurs ont soumis au cours des 90 derniers jours. Pour plus d’informations, consultez Gestion des accès aux données |
Ingestion agnostique de données | Ce microservice crée de nouvelles sources de données pour l’ingestion dans vos zones d’atterrissage de données. Elle le fait en communiquant avec un métastore Azure Data Factory SQL Database dans chaque zone d’atterrissage de données. Pour en savoir plus, consultez Comment les infrastructures d'ingestion automatisée prennent en charge l'analyse à l'échelle du cloud dans Azure |
Métadonnées | Ce service a exposé et crée des métadonnées pour la plateforme. Pour plus d’informations, consultez Normes des métadonnées |
Cycle de vie des données | Ce service est responsable de la maintenance de votre cycle de vie des données en fonction des métadonnées. Cette maintenance peut inclure le déplacement de données vers le stockage froid et la suppression d’enregistrements qui n’ont plus besoin d’être conservés. Pour plus informations, consultez Gestion de cycle de vie des données |
Intégration du domaine de données | APPLICABLE UNIQUEMENT À DATA MESH. Ce service capture les métadonnées relatives aux nouveaux domaines et intègre les nouveaux domaines en fonction des besoins. Il peut également créer, mettre à jour, activer et désactiver n’importe quelle ligne de domaine ou de service que vous pouvez générer dans un microservice. Pour plus d’informations, consultez Provisionner l’analytique à l’échelle du cloud |
Standardisation des données
Bien qu’il ne s’agit pas d’une fonctionnalité ou d’un produit spécifique de votre zone d’atterrissage de gestion des données, vous devez appeler la normalisation des données sur tous les services. La normalisation des données définit le format dans lequel vos données doivent atterrir et être stockées.
Conseil
Utilisez le format delta-lake autant que possible en tant que standard defacto sur tous les services et le stockage.
Pour plus d’informations, consultez Standardisation des données.