Décrire l’architecture en médaillon

5 minutes

Les entrepôts de données de Fabric sont construits sur le format Delta Lake, qui prennent en charge de façon native les transactions ACID (atomicité, cohérence, isolation, durabilité). Dans cette infrastructure, l'architecture en médaillon est un modèle de conception de données recommandé pour organiser logiquement les données dans un lakehouse. Elle vise à améliorer la qualité des données au fur et à mesure qu'elles passent d'une couche à l'autre. L'architecture comporte généralement trois couches : bronze (données brutes), argent (données validées) et or (données enrichies), représentant chacune des niveaux de qualité de données plus élevés. Certains parlent également d'architecture « multi-tronçon », ce qui signifie que les données peuvent passer d'une couche à l'autre en fonction des besoins.

Cette architecture garantit la fiabilité et la cohérence des données lorsqu'elles sont soumises à diverses vérifications et modifications. Elle garantit également le stockage en toute sécurité des données de manière à faciliter et à accélérer leur analyse.

L'architecture en médaillon complète les autres méthodes d'organisation des données, sans les remplacer. Vous pouvez considérer l'architecture en médaillon comme le cadre pour le nettoyage des données, plutôt que comme une architecture ou un modèle de données. Elle offre la compatibilité et la flexibilité nécessaires pour que les entreprises puissent adopter ses avantages parallèlement aux modèles de données existants, ce qui permet de personnaliser les solutions de données et de préserver l'expertise tout en restant adaptable à l'évolution constante du paysage des données.

Diagramme d'une architecture en médaillon où les données circulent de la source vers les couches bronze, argent et or.

Comprendre le format d’architecture en médaillon

Couche bronze

La couche de bronze ou brute de l'architecture du médaillon est la première couche du lakehouse. C'est la zone d'atterrissage de toutes les données, qu'elles soient structurées, semi-structurées ou non structurées. Les données sont stockées dans leur format d'origine et aucune modification n'y est apportée.

Couche argent

La couche argent ou validée est la deuxième couche du lakehouse. C’est là que vous validerez et affinerez vos données. Les activités typiques de la couche argent comprennent la combinaison et la fusion de données et l'application de règles de validation des données telles que la suppression des zéros et la déduplication. La couche argent peut être considérée comme un référentiel central au sein d'une organisation ou d'une équipe, où les données sont stockées dans un format cohérent et peuvent être consultées par plusieurs équipes. Dans la couche argent, vous nettoyez suffisamment vos données pour que tout soit au même endroit et prêt à être affiné et modélisé dans la couche or.

Couche or

La couche or ou couche enrichie est la troisième couche du lakehouse. Dans la couche or, les données sont davantage affinées pour répondre aux besoins spécifiques de l'entreprise et en matière d'analyse. Il peut s'agir d'agréger des données à une granularité particulière, par exemple quotidienne ou horaire, ou de les enrichir avec des informations externes. Une fois que les données atteignent le stade or, elles sont prêtes à être utilisées par les équipes en aval, notamment les équipes d'analyse, de science des données ou de MLOps.

Personnaliser votre architecture en médaillon

En fonction du cas d'utilisation spécifique de votre organisation, il se peut que vous ayez besoin de plus de couches. Par exemple, vous pouvez disposer d'une couche « brute » supplémentaire pour les données d'atterrissage dans un format spécifique avant qu'elles ne soient transformées en couche de bronze. Vous pouvez également disposer d'une couche « platine » pour les données qui ont été affinées et enrichies pour un cas d'utilisation spécifique. Quels que soient les noms et le nombre de couches, l'architecture du médaillon est flexible et peut être adaptée aux exigences particulières de votre organisation.

Transférer les données au sein des couches dans Fabric

Le transfert des données à travers les couches en médaillon permet de les affiner, de les organiser et de les préparer pour les activités de données en aval. Dans le lakehouse de Fabric, il existe plusieurs façons de transférer les données entre les couches, ce qui vous permet de choisir la méthode qui convient le mieux à votre équipe.

Plusieurs éléments doivent être pris en compte en matière de transfert des données d'une couche à l'autre et de transformation.

Quelle est la quantité de données que vous utilisez ?
Quelle est la complexité des transformations à effectuer ?
À quelle fréquence devrez-vous transférer les données d'une couche à l'autre ?
Quels sont les outils avec lesquels vous êtes le plus à l’aise ?

Comprendre la différence entre la transformation et l'orchestration des données vous aide à sélectionner les bons outils pour le travail au sein de Fabric.

La transformation des données consiste à modifier la structure ou le contenu des données pour répondre à des exigences spécifiques. Les outils de transformation des données dans Fabric comprennent les flux de données (Gen2) et les notebooks. Les flux de données sont une excellente option pour les plus petits modèles sémantiques et les transformations simples. Les notebooks sont une meilleure option pour les modèles sémantiques plus importants et les transformations plus complexes. Les notebooks vous permettent également d'enregistrer vos données transformées sous la forme d'une table Delta gérée dans le lakehouse, prêtes à être utilisées pour la création de rapports.

L’orchestration des données fait référence à la coordination et à la gestion de plusieurs processus liés aux données, en veillant à ce qu’ils fonctionnent ensemble pour atteindre le résultat souhaité. Les pipelines constituent le principal outil d’orchestration des données dans Fabric. Un pipeline est une série d'étapes qui transfèrent les données d'un emplacement à un autre, dans le cas présent, d'une couche de l'architecture en médaillon à la suivante. Les pipelines peuvent être automatisés pour s'exécuter selon une planification ou être déclenchés par un événement.