Qu’est-ce qu’un maillage de données ?
Le maillage de données est un modèle architectural permettant d’implémenter des plateformes de données d’entreprise dans des organisations grandes et complexes. Le maillage de données permet de mettre à l’échelle l’adoption de l’analyse au-delà d’une seule plateforme et d’une seule équipe d’implémentation.
Arrière-plan
La demande d’analytique n’est pas un développement récent. Les organisations ont constamment besoin d’évaluer les performances de l’entreprise et d’utiliser des ordinateurs à cet effet depuis leur création. Dans les années 1980, les organisations ont commencé à créer des solutions d’entrepôt de données à l’aide de bases de données spécifiquement pour l’aide à la décision. Ces solutions d’entrepôt de données ont bien servi les organisations pendant de nombreuses années.
Toutefois, à mesure de l’évolution des entreprises et de leurs génération de données de plus en plus diversifiées, les solutions d’entrepôt de données qui utilisent des bases de données relationnelles ne constituent pas toujours la meilleure solution. Dans les années 2000, le Big Data est devenu un terme courant. Les entreprises ont adopté de nouvelles solutions permettant d’analyser de grands volumes de données diverses pouvant être générées avec une grande rapidité. Ces solutions incluent des technologies, comme les lacs de données, et des solutions évolutives qui analysent de grandes quantités de données.
Au cours des dernières années, de nombreuses organisations ont commencé à utiliser avec succès des modèles architecturaux et analytiques modernes qui combinent les technologies d’entreposage de données et les technologies Big Data plus récentes.
Toutefois, certaines organisations rencontrent des problèmes lors du déploiement de solutions analytiques qui utilisent ces modèles. Ces solutions sont généralement implémentées en tant que solutions monolithiques, où une seule équipe représente le fournisseur de plateforme et l’équipe effectue l’intégration des données. Des petites organisations et des organisations avec un degré élevé de centralisation du point de vue d’une configuration d’équipe peuvent utiliser une seule équipe. Cependant, une grande organisation utilisant uniquement une seule équipe crée souvent un goulot d’étranglement. Ce goulot d’étranglement provoque un énorme backlog, faisant que des parties d’une organisation doivent attendre les services d’intégration de données et les solutions analytiques.
Ce modèle devient de plus en plus courant à mesure que les organisations adoptent des solutions modernes de science des données. De nombreuses solutions de science des données modernes nécessitent plus de données que les solutions d’intelligence décisionnelle traditionnelles du passé.
Le passage récent à l’utilisation de microservices en tant que modèle de développement d’applications représente un autre pilote de backlogs longs autour de l’intégration des données, car il augmente le nombre de sources de données.
Le fait de n’avoir qu’une seule équipe gérant toutes les ingestions de données sur une plateforme unique dans une grande organisation peut également être problématique. Une équipe dispose rarement d’experts pour chaque source de données. La plupart des organisations sont décentralisées et distribuées sur le plan commercial. Différents services et unités commerciales gèrent différentes parties de l’activité commerciale, de sorte que les experts en données sont normalement répartis dans différents secteurs.
Un modèle appelé data mesh a été introduit pour résoudre ces problèmes. L’objectif du maillage de données est de permettre aux équipes distribuées de travailler avec des informations et de les partager de manière décentralisée et agile.
Le maillage de données est un modèle technique qui nécessite également une modification organisationnelle. Les avantages d’une approche de maillage de données sont obtenus en implémentant des équipes multidisciplinaires qui publient et consomment des produits de données.
Les concepts suivants sont fondamentaux pour comprendre l’architecture de maillage de données :
- Domaines de données
- Produits de données
- Plateformes en libre-service
- Gouvernance fédérée
Domaines de données
Les domaines de données sont la base du maillage de données. Le concept des domaines de données provient du développement piloté par domaine (DDD), un paradigme souvent utilisé dans le développement logiciel pour modéliser des solutions logicielles complexes. Dans le maillage de données, un domaine de données constitue un moyen de définir des limites autour de vos données d’entreprise. Les domaines peuvent varier en fonction de votre organisation et, dans certains cas, vous pouvez définir des domaines autour de votre organisation. Dans d’autres cas, vous pouvez choisir de modéliser des domaines de données basés sur vos processus métier ou systèmes sources.
Il existe trois aspects relatifs aux domaines de données :
Vos limites choisies se soumettent à la propriété à long terme. Elles existent sur une longue période et ont des propriétaires identifiés.
Vos domaines doivent correspondre à la réalité, pas seulement aux concepts théoriques.
Vos domaines doivent avoir l’intégrité atomique. Si les zones n’ont aucune relation entre elles, ne les combinez pas ensemble dans un domaine.
Pour plus d’informations sur les domaines de données et sur la façon dont vous devez les définir, consultez Domaines de données.
Produits de données
Les produits de données constituent un autre composant important du maillage de données. Les produits de données visent à prendre en compte les produits dans le monde des données. Pour que votre produit de données réussisse, il doit fournir une valeur métier à long terme aux utilisateurs prévus. Dans le maillage de données, un produit de données implique des données, des ressources de code, des métadonnées et des stratégies connexes. Les produits de données peuvent être livrés en tant qu’API, rapport, table ou jeu de données dans un lac de données.
Un produit de données réussi doit être :
- Utilisable : votre produit doit avoir des utilisateurs en dehors du domaine de données immédiat.
- Précieux : votre produit doit maintenir la valeur au fil du temps. S’il n’a pas de valeur à long terme, il ne peut pas réussir.
- Faisable : votre produit doit être réalisable. Si vous ne pouvez pas réellement le créer, le produit ne peut pas réussir. Votre produit doit être réalisable d’un point de vue technique et du point de vue de la disponibilité des données.
Les ressources de code d’un produit de données incluent le code qui le génère et le code qui le fournit. Les ressources de code incluent également des pipelines utilisés pour créer le produit et le rapport final du produit.
Pour plus d’informations sur les produits de données, consultez Produits de données de l’analytique à l’échelle du cloud dans Azure.
Pour obtenir des conseils spécifiques sur l’utilisation du maillage de données, consultez Qu’est-ce qu’un produit de données ?.
Plateformes en libre-service
La base du maillage de données consiste à disposer d’une plateforme permettant aux domaines de données de créer leurs produits de données eux-mêmes. Les domaines de données ont besoin de définir les produits de données à l’aide d’outils et de processus pertinents pour les utilisateurs sans avoir de dépendance forte à une plateforme centrale ou à une équipe de plateforme centrale. Dans un maillage de données, vous disposez d’équipes autonomes qui développent et gèrent des produits autonomes.
En utilisant la décentralisation et l’alignement avec des utilisateurs professionnels qui comprennent vos données, n’oubliez pas les généralistes travaillant aussi sur votre plateforme. Puisque vous avez des généralistes, vous ne pouvez pas avoir d’outils spécialisés qui nécessitent des connaissances spécialisées pour fonctionner comme base de votre plateforme basée sur le maillage.
Vous pouvez implémenter votre plateforme libre-service en adoptant les pratiques décrites dans les Considérations relatives à la conception pour les plateformes de données libre-service.
Gouvernance fédérée
Lorsque vous adoptez une plateforme de données distribuée libre-service, vous devez mettre davantage l’accent sur la gouvernance. L’absence de gouvernance entraîne des silos et des duplications de données entre vos domaines de données. Fédérer votre gouvernance, car les personnes qui comprennent les besoins en matière de gouvernance se trouvent au sein de vos équipes alignées sur le domaine et parmi les propriétaires des données.
Pour créer votre gouvernance fédérée, implémentez des stratégies automatisées autour des besoins de plateforme et de données. Utilisez un degré élevé d’automatisation pour les tests et la surveillance. Adoptez une stratégie d’implémentation code first pour gérer les normes, les stratégies, les produits de données et le déploiement de plateforme en tant que code.
Pour plus d’informations sur l’implémentation d’aspects de gouvernance fédérée, consultez Vue d’ensemble de la gouvernance des données.
Récapitulatif
Le maillage de données peut être un moyen efficace d’implémenter des plateformes de données d’entreprise, mais il ne constitue pas la meilleure solution pour toutes les organisations. Le maillage de données nécessite des équipes autonomes qui peuvent fonctionner indépendamment. Le maillage de données fonctionne mieux dans des organisations grandes et complexes qui ont des unités commerciales indépendantes et qui doivent mettre à l’échelle leur adoption d’analyse au-delà d’une seule plateforme et d’une équipe d’implémentation.
Lorsque vous utilisez le maillage de données, soyez particulièrement vigilant lors de l’implémentation de votre gouvernance afin de ne pas créer de silos. Prenez toujours en compte les produits pour les données au cœur de votre implémentation pour garantir le succès.