Partager via


Un scénario d’établissement financier pour le maillage des données

Ce scénario est destiné aux clients qui souhaitent utiliser l’analyse à l’échelle du cloud pour des architectures de scalabilité et de maillage de données. Elle illustre un scénario complexe avec des zones d’atterrissage, intégrations de données et produits de données.

Profil client

Une entreprise fictive, Woodgrove Bank, est une grande société de services financiers d’envergure internationale. Les données de la Woodgrove Bank des systèmes de déploiement locaux et dans le cloud. Dans l’architecture de la Woodgrove Bank, plusieurs systèmes d’entrepôts de données sont disponibles pour un marketing consolidé et des rapports intégrés. Cette architecture comprend plusieurs lacs de données en vue d’une analytique ad hoc et de la recherche de données. Un grand nombre des applications de la Woodgrove Bank sont interconnectées via des modèles d’intégration d’application, qui sont essentiellement basés sur des API ou sur des événements.

Situation actuelle

La Woodgrove Bank trouve qu’il est difficile de distribuer les données vers différents emplacements en raison de la complexité de l’entreposage des données. L’intégration de nouvelles données prend beaucoup de temps et il est tentant de dupliquer les données. La Woodgrove Bank trouve qu’il est difficile de surveiller le paysage des données de bout en bout en raison de la connectivité point à point. La banque a sous-estimé la demande de consommation intensive des données. De nouveaux cas d’usage sont rapidement introduits, l’un après l’autre. La gouvernance des données, comme la propriété et la qualité des données, ainsi que les coûts sont difficiles à contrôler. Il est difficile de rester à jour des réglementations, car la Woodgrove Bank ne sait pas exactement où résident ses données.

Solution d’architecture : le maillage des données

Au cours des dernières années, les entreprises ont reconnu que les données sont au cœur de leur activité. Les données favorisent de nouvelles performances, pilotent l’innovation, déverrouillent de nouveaux modèles métier et renforcent la satisfaction des clients. L’utilisation de méthodes basées sur les données, comme les données à grande échelle, est une priorité absolue pour les entreprises.

Atteindre un stade où la valeur approfondie des données est accessible à tous les membres de l’organisation est un véritable défi. Des systèmes hérités et étroitement interconnectés, des plateformes monolithiques centralisées et une gouvernance complexe peuvent être des obstacles significatifs à la génération de valeur à partir des données.

À propos du maillage des données

Le concept de maillage des données, un terme forgé par Zhamak Dehghani, englobe les données, la technologie, les processus et l’organisation. Conceptuellement, il s’agit d’une approche accessible de la gestion des données, où différents domaines utilisent leurs propres données. Le maillage de données défie l’idée d’une centralisation conventionnelle des données. Plutôt que d’examiner les données sous la forme d’un seul référentiel immense, le maillage des données prend en compte la décomposition de produits de données indépendants. Cette évolution d’une propriété centralisée à une propriété fédérée s’appuie sur une plateforme de données moderne et en libre-service, généralement conçue à l’aide de technologies cloud natives.

Lorsque vous décomposez le concept de maillage des données en modules, voici quelques points clés à prendre en compte :

  • Données en tant que produit : Chaque domaine (d’organisation) utilise ses données de bout en bout. La responsabilité revient au propriétaire des données au sein du domaine. Les pipelines deviennent une préoccupation majeure des domaines eux-mêmes.
  • Gouvernance des données de calcul fédérées : pour garantir que chaque propriétaire de données pourra faire confiance aux autres et partager ses produits de données, un corps de gouvernance des données d’entreprise doit être établi. L’organisme de gouvernance implémente la qualité des données, la visibilité centralisée de la propriété des données, la gestion de l’accès aux données et les stratégies de confidentialité des données.
  • Propriété des données orientées domaine : l’entreprise doit idéalement définir et modéliser chaque nœud de domaine de données au sein du maillage en appliquant les principes de conception orientée domaine.
  • Plateforme de données libre-service : un maillage des données nécessite une plateforme de données en libre-service qui permette aux utilisateurs d’éliminer la complexité technique et de se concentrer sur leurs cas d’usage individuels des données.

Analyse de niveau cloud

La conception des données en tant que produit et le modèle d’une plateforme en libre-service ne sont pas choses nouvelles pour Microsoft. Pendant de nombreuses années, Microsoft a observé de bonnes pratiques en matière de plateformes distribuées, de pipelines sur des domaines, de propriété fédérée et de données explicites.

La Woodgrove Bank peut transitionner vers le maillage des données en utilisant l’analyse à l’échelle du cloud. L’analyse à l’échelle du cloud est un plan open source et normatif de conception et de déploiement rapide de plateformes de données modernes. Il a été couplé avec les bonnes pratiques et les principes de conception d’Azure, et il s’aligne sur Azure Well-Architected Framework. L’analyse à l’échelle du cloud vise à fournir aux entreprises un point de vue prescrit à 80 % et la possibilité de personnaliser les 20 % restants.

L’analyse à l’échelle du cloud offre aux entreprises un chemin de conception stratégique vers le maillage des données et peut être utilisée pour configurer rapidement une telle architecture. Il offre un plan, y compris les principaux services de plateforme de données pour la gestion des données.

Au niveau le plus élevé, l’analyse à l’échelle du cloud utilise une fonction de gestion des données, qui est activée par le biais de la zone d’atterrissage de gestion des données. Cette zone est responsable de la gouvernance des données fédérées d’une organisation de la plateforme (en libre-service), ainsi que des domaines de données qui gèrent la valeur métier via les produits de données. L’avantage de cette approche est qu’elle élimine la complexité technique, tout en respectant les mêmes normes. Elle garantit l’absence de toute prolifération des technologies. Elle permet également aux entreprises de commencer de façon modulaire, avec une faible envergure, puis de croître au fil du temps.

La zone d’atterrissage de gestion des données, comme vous pouvez le voir dans le diagramme suivant, entoure tous les domaines de données. Elle colle tous les domaines ensemble et fournit la supervision que la Woodgrove Bank recherche.

Diagramme montrant comment le maillage des données répartit intelligemment les produits de données entre les domaines de données

L’analyse à l’échelle du cloud préconise également l’application d’une gouvernance cohérente qui utilise une architecture commune lorsque les produits de données sont distribués. L’infrastructure permet la communication directe entre les domaines. Elle garde le contrôle en mettant l’accent sur le catalogage et la classification centralisés pour protéger les données et permettre aux groupes de les découvrir. Elle place un parapluie au-dessus de votre patrimoine de données.

Domaines de données

Lorsque vous utilisez l’analyse à l’échelle du cloud comme chemin stratégique, vous devez considérer la décomposition de votre architecture et la granularité résultante. Le maillage des données décompose les données en ne suivant pas les limites des technologies. Au lieu de cela, il applique les principes de la conception pilotée par domaine (DDD), une approche du développement logiciel qui implique des systèmes complexes pour les grandes organisations. La conception DDD est populaire en raison de son impact sur les pratiques modernes de développement d’applications et de logiciels, comme les microservices.

L’un des modèles de la conception pilotée par domaine est appelé contexte limité. Les contextes limités sont utilisés pour définir les limites logiques de l’espace de solution d’un domaine afin de mieux gérer la complexité. Il est important que les équipes comprennent quels aspects, y compris quelles données, elles peuvent changer de manière autonome et qui constituent des dépendances partagées pour lesquelles se coordonner avec d’autres. Le maillage de données adopte le contexte délimité. Il utilise ce modèle pour décrire comment les organisations peuvent se coordonner autour des domaines de données et se concentrer sur la livraison de données en tant que produit. Chaque domaine de données possède et utilise plusieurs produits de données avec sa propre pile technologique, qui est indépendante des autres.

Diagramme montrant une architecture de maillage de données.

Produits de données

Lorsque vous effectuez un zoom avant sur l’architecture interne d’un tel domaine de données, vous vous attendez à trouver des produits de données dans celui-ci.

Les produits de données répondent à un besoin spécifique au sein des entreprises qui utilisent des données. Les produits de données gèrent, organisent et donnent du sens aux données des différents domaines, puis présentent les insights obtenus. Un produit de données est un résultat de données provenant d’une ou de plusieurs intégrations de données ou d’autres produits de données. Les produits de données sont étroitement alignés avec les domaines de données et héritent du même langage construit et formalisé. Il est convenu par les parties prenantes et les concepteurs, et il répond aux besoins de la conception. Chaque domaine, qui génère des données, est chargé de mettre ces produits de données à la disposition des autres domaines.

Pour vous aider à fournir rapidement des produits de données, l’analyse à l’échelle du cloud offre des modèles pour les modèles d’intégration et de distribution des données. L’infrastructure fournit le traitement par lots, le streaming et l’analytique des données pour répondre aux besoins d’un ensemble diversifié de consommateurs.

Un aspect important de l’analyse à l’échelle du cloud est la façon dont les domaines et les produits de données sont organisés. Chaque domaine de données est aligné sur une zone d’atterrissage de données. Il s’agit d’une construction logique et d’une unité d’échelle dans l’architecture de l’analyse à l’échelle du cloud. Cela permet la conservation des données et l’exécution de charges de travail de données pour générer des insights et une valeur avec ces données. Chaque produit de données est aligné sur un groupe de ressources unique au sein de la zone d’atterrissage de données, et toutes les zones de gestion et zones d’atterrissage de données s’alignent sur les abonnements. Cette approche facilite l’implémentation et la gestion.

Tous les modèles d’analyse à l’échelle du cloud héritent du même ensemble de stratégies que la zone d’atterrissage de gestion des données. Ces modèles fournissent automatiquement les métadonnées nécessaires à la découverte des données, à la gouvernance, à la sécurité, à la gestion des coûts et à l’excellence opérationnelle. Vous pouvez intégrer rapidement de nouveaux domaines de données sans nécessiter d’intégration ni de tests complexes.

Le diagramme suivant illustre à quoi peut ressembler un produit de données :

Diagramme d’un domaine de données contenant un produit de données

Une approche pragmatique de la création de produits de données consiste à s’aligner sur la source, d’où les données proviennent initialement, ou sur le cas d’usage du consommateur. Dans les deux cas, vous devez fournir une vue abstraite du modèle de données d’application sous-jacent (complexe). Vous devez essayer de masquer les détails techniques et d’optimiser pour une consommation intensive des données. Une vue Azure Synapse ou un fichier Parquet, qui regroupe des données de façon logique, est un exemple de la façon dont un produit de données peut être partagé entre plusieurs domaines de données.

Ensuite, vous devez travailler à la détectabilité, la provenance, l’utilisation et la traçabilité des données. Une approche éprouvée consiste à utiliser un service de gouvernance des données, comme Azure Purview, pour inscrire toutes les données. L’intégration des données dans l’analyse à l’échelle du cloud met parfaitement en évidence les liens, car elle permet de créer ces produits de données tout en effectuant l’enregistrement des métadonnées.

En alignant les domaines de données et les collections Azure Purview, vous capturez automatiquement l’origine de toutes les données, la traçabilité, les détails de qualité des données et les informations de consommation à partir des domaines individuels. Avec cette approche, vous pouvez connecter plusieurs domaines de données et produits à une solution de gouvernance centralisée, qui stocke toutes les métadonnées de chaque environnement. L’avantage est qu’elle intègre de manière centralisée toutes les métadonnées et les rend facilement accessibles aux divers consommateurs. Vous pouvez étendre cette architecture pour inscrire de nouveaux produits de données.

Le diagramme suivant illustre une architecture de maillage de données inter-domaines qui utilise l’analyse à l’échelle du cloud.

Diagramme montrant l’intégration de données

La conception réseau permet de partager les produits de données entre les domaines en utilisant un coût minimal et en éliminant un point de défaillance unique et les limitations de bande passante. Pour garantir la sécurité, vous pouvez utiliser le modèle de sécurité Confiance Zéro de Microsoft. L’analyse à l’échelle du cloud propose l’utilisation de l’isolement réseau via des points de terminaison privés et une communication réseau privée, un modèle d’accès aux données basé sur l’identité qui utilise les groupes de sécurité MI, UMI et imbriqués, en suivant le principe du moindre privilège.

Vous pouvez utiliser des identités managées pour vous assurer qu’un modèle d’accès de moindre privilège est suivi. Les applications et services de ce modèle ont un accès limité aux produits de données. Les stratégies Azure, avec les stratégies de données à venir, sont utilisées pour activer le libre-service et appliquer des ressources conformes au sein de tous les produits de données, à l’échelle. Grâce à cette conception, vous pouvez bénéficier d’un accès uniforme aux données, tout en conservant un contrôle total via la gouvernance et l’audit centralisés des données.

Diagramme illustrant un contrat de données

Évolution vers le futur

L’analyse à l’échelle du cloud a été conçue avec le maillage de données à l’esprit. L’analyse à l’échelle du cloud fournit une approche éprouvée permettant aux organisations de partager des données entre plusieurs domaines de données. Cette infrastructure offre aux domaines l’autonomie de faire des choix, et régit l’architecture en la délimitant à l’aide des services de gestion des données.

Lorsque vous implémentez le maillage de données, regroupez et organisez logiquement vos domaines. Cette approche nécessite une vue d’entreprise et constitue probablement un changement culturel pour votre organisation. Ce changement vous oblige à fédérer la propriété des données entre les propriétaires et les domaines de données qui sont responsables de la fourniture de leurs données en tant que produits. Il requiert également que les équipes se conforment aux fonctionnalités centralisées offertes par la zone d’atterrissage de gestion des données. Cette nouvelle approche peut obliger les équipes à abandonner leurs mandats actuels, ce qui est susceptible de générer des résistances. Vous devrez peut-être faire certains choix politiques et trouver un équilibre entre les approches centralisée et décentralisée.

Vous pouvez mettre à l’échelle une architecture de maillage de données en ajoutant des zones d’atterrissage à l’architecture pour des domaines individuels. Ces zones d’atterrissage utilisent l’appairage de réseaux virtuels pour se connecter à la zone d’atterrissage de gestion des données ainsi qu’à toutes les autres zones d’atterrissage. Ce modèle vous permet de partager des produits de données et des ressources entre les zones. Lors du fractionnement en zones distinctes, vous pouvez répartir les charges de travail entre les abonnements et les ressources Azure. Cette approche vous permet d’implémenter de façon organique le maillage de données.

En savoir plus

Ressources Microsoft :

Article par le fondateur du maillage de données Zhamak Dehghani :