Interopérabilité et utilisabilité pour le data lakehouse
Cet article traite des principes architecturaux du pilier interopérabilité et utilisabilité, qui concerne l’interaction du lakehouse avec les utilisateurs et avec d’autres systèmes. Une des idées fondamentales du lakehouse est d’offrir une bonne expérience utilisateur à tous les personnes qui travaillent avec celui-ci, et de pouvoir interagir avec un large écosystème de systèmes externes.
- L’interopérabilité est la capacité d’un système à travailler avec d’autres systèmes et à s’intégrer. Elle implique une interaction entre différents composants et produits, provenant éventuellement de plusieurs fournisseurs, et entre les versions passées et futures du même produit.
- La convivialité est la mesure de la façon dont un système permet aux utilisateurs d’effectuer des tâches en toute sécurité, efficacement et efficacement.
En suivant les principes de ce pilier, vous pouvez :
- Obtenir une expérience utilisateur cohérente et collaborative.
- Tirer parti des synergies entre les clouds.
- Simplifier l’intégration depuis et vers le lakehouse.
- Réduire les coûts de formation et d’adaptation.
Et en fin de compte, accélérer le délai de rentabilisation.
Principes de l’interopérabilité et de l’utilisabilité
Définir des normes pour l’intégration
L’intégration a différents aspects et elle peut être effectuée de plusieurs façons différentes. Pour éviter la prolifération d’outils et d’approches, des meilleures pratiques doivent être définies, et une liste d’outils et de connecteurs préférés et avec un bon support doit être fournie.
Un des principes architecturaux clés est la modularité et un couplage faible, au lieu d’une intégration étroite. Ceci réduit les dépendances entre les composants et les charges de travail, permet d’éliminer les effets secondaires et permet le développement indépendant sur différentes échelles de temps. Utilisez des jeux de données et leur schéma comme contrat. Séparez les charges de travail comme les travaux de data wrangling (comme le chargement et la transformation de données en un lac de données) des travaux à valeur ajoutée (par exemple la création de rapports, les tableaux de bord et l’ingénierie des caractéristiques de la science des données). Définissez un catalogue de données central avec des directives pour les formats de données, la qualité des données et le cycle de vie des données.
Utiliser les interfaces ouvertes et les formats de données ouverts
Souvent, les solutions sont développées avec des données accessibles seulement via un système spécifique. Ceci peut entraîner un verrouillage par le fournisseur, mais peut aussi générer des coûts énormes si l’accès aux données via ce système est soumis à des frais de licence. L’utilisation d’interfaces et de formats de données ouverts permet d’éviter cela. Ils simplifient également l’intégration avec des systèmes existants et ouvrent un écosystème de partenaires qui ont déjà intégré leurs outils au lakehouse.
Si vous utilisez des écosystèmes open source comme Python ou R pour la science des données, ou Spark ou ANSI SQL pour l’accès aux données et le contrôle des droits d’accès, vous aurez plus de temps pour trouver du personnel pour les projets. Il simplifie également les migrations potentielles vers et depuis une plateforme.
Simplifier la nouvelle implémentation de cas d’usage
Pour tirer le meilleur parti des données du lac de données, les utilisateurs doivent être en mesure de déployer facilement leurs cas d’usage sur la plateforme. Cela commence par des processus allégés concernant l’accès à la plateforme et la gestion des données. Par exemple, l’accès en libre-service à la plateforme permet d’éviter qu’une équipe centrale devienne un goulot d’étranglement. Les environnements partagés et les blueprints prédéfinis pour le déploiement de nouveaux environnements garantissent que la plateforme est disponible rapidement pour n’importe quel utilisateur métier.
Garantir la cohérence et l’utilisabilité des données
La publication de données et la consommation de données sont deux activités importantes sur une plateforme de données. Du point de vue de la publication, les données doivent être proposées en tant que produit. Les personnes chargées de la publication doivent suivre un cycle de vie défini en pensant aux consommateurs, et les données doivent être clairement définies avec des schémas, des descriptions, etc. qui doivent être gérés.
Il est également important de fournir des données sémantiquement cohérentes afin que les consommateurs puissent comprendre facilement et combiner correctement les différents jeux de données. En outre, toutes les données doivent être découvrables et accessibles facilement par les consommateurs via un catalogue central avec des métadonnées et une traçabilité des données correctement organisées.
Ensuite : de meilleures pratiques pour l’interopérabilité et l’utilisabilité
Consultez Meilleures pratiques pour l’interopérabilité et l’utilisabilité.