Bonnes pratiques en matière d’interopérabilité et de facilité d’utilisation

Article
12/19/2024

Cet article décrit les bonnes pratiques en matière d’interopérabilité et de facilité d’utilisation, organisées selon les principes architecturaux listés dans les sections suivantes.

1. Définir des normes pour l’intégration

Utiliser des modèles d’intégration standard et réutilisables pour l’intégration externe

Les normes d’intégration sont importantes, car elles fournissent des instructions sur la façon dont les données doivent être représentées, échangées et traitées au sein de différents systèmes et applications. Ces normes permettent de s’assurer que les données sont compatibles, de haute qualité et interopérables entre différentes sources et destinations.

Databricks Lakehouse est fournie avec une API REST complète qui vous permet de gérer presque tous les aspects de la plateforme par programmation. Le serveur d’API REST s’exécute dans le plan de contrôle et fournit un point de terminaison unifié, afin de gérer la plateforme Azure Databricks.

L’API REST fournit le niveau d’intégration le plus bas, qui peut toujours être utilisé. Toutefois, la méthode recommandée pour s’intégrer à Azure Databricks consiste à utiliser des abstractions de niveau supérieur, telles que les SDK Databricks ou les outils CLI. Les outils CLI sont basés sur l’interpréteur de commandes et permettent une intégration facile de la plateforme Databricks aux flux de travail CI/CD et MLOps.

Utiliser des connecteurs optimisés pour ingérer des sources de données dans le lakehouse

Azure Databricks propose différents moyens de vous aider à ingérer des données dans Delta Lake.

Databricks fournit des connecteurs optimisés pour les services de messagerie de flux tels qu’Apache Kafka pour l’ingestion de données quasiment en temps réel.
Databricks fournit des intégrations intégrées à de nombreux systèmes de données natifs Cloud et une prise en charge JDBC extensible pour se connecter à d’autres systèmes de données.
L’une des options d’intégration de sources de données sans ETL est Lakehouse Federation. Lakehouse Federation est la plateforme de fédération de requêtes pour Databricks. Le terme « fédération de requêtes » décrit une collection de fonctionnalités qui autorisent les utilisateurs et les systèmes à exécuter des requêtes sur plusieurs sources de données sans avoir à migrer toutes les données vers un système unifié. Databricks utilise Unity Catalog pour gérer la fédération des requêtes. Les outils de gouvernance et de traçabilité des données d’Unity Catalog garantissent que l’accès aux données est géré et audité pour toutes les requêtes fédérées exécutées par les utilisateurs de vos espaces de travail Databricks.

Remarque

Toute requête de la plateforme Databricks qui utilise une source de fédération Lakehouse est envoyée à cette source. Assurez-vous que le système source peut gérer la charge. Sachez également que si le système source est déployé dans une autre région cloud ou un autre cloud, il existe un coût de sortie pour chaque requête.

Envisagez de décharger l’accès aux bases de données sous-jacentes via les vues matérialisées pour éviter les charges élevées/simultanées sur les bases de données opérationnelles et réduire les coûts de sortie.

Utiliser des outils partenaires certifiés

Les organisations ont des besoins différents, et aucun outil unique ne peut répondre à tous ces besoins. Partner Connect vous permet d’explorer et d’intégrer facilement avec nos partenaires, qui couvrent tous les aspects du lakehouse : ingestion de données, préparation et transformation, BI et visualisation, machine learning, qualité des données et plus encore. Partner Connect vous autorise à créer des comptes d’évaluation avec certains partenaires technologiques Databricks, et à connecter votre espace de travail Azure Databricks à des solutions partenaires à partir de l’interface utilisateur Azure Databricks. Essayez des solutions partenaires à l’aide de vos données dans Databricks Lakehouse, puis adoptez les solutions qui répondent le mieux aux besoins de votre entreprise.

Réduire la complexité des pipelines d’engineering données

L’investissement dans la réduction de la complexité des pipelines d’engineering données permet la scalabilité, l’agilité et la flexibilité pour pouvoir développer et innover plus rapidement. Les pipelines simplifiés facilitent la gestion et l’adaptation de tous les besoins opérationnels d’un pipeline d’engineering données : orchestration des tâches, gestion des clusters, surveillance, qualité des données et gestion des erreurs.

Delta Live Tables est un framework permettant de créer des pipelines de traitement de données fiables, gérables et testables. Vous définissez les transformations que vous voulez effectuer sur vos données et Delta Live Tables gère l’orchestration des tâches, la gestion des clusters, la supervision, la qualité des données et la gestion des erreurs. Consultez l’article Qu’est-ce que Delta Live Tables ?.

Auto Loader traite de façon incrémentielle et efficace les nouveaux fichiers de données à mesure qu’ils arrivent dans le stockage cloud. Il peut lire de manière fiable les fichiers de données à partir du stockage cloud. Un aspect important de Delta Live Tables et d’Auto Loader est leur nature déclarative : sans eux, il est indispensable de créer des pipelines complexes qui intègrent différents services cloud, tels qu’un service de notification et un service de mise en file d’attente, pour lire de manière fiable les fichiers cloud en fonction d’événements et permettre la combinaison fiable de sources de traitement par lots et de streaming.

Auto Loader et Delta Live Tables réduisent les dépendances et la complexité du système, et améliorent formidablement l’interopérabilité avec le stockage cloud et entre différents paradigmes comme le traitement par lots et la diffusion en continu. Comme effet secondaire, la simplicité des pipelines augmente la facilité d’utilisation de la plateforme.

Utiliser l’infrastructure en tant que code (IaC) pour les déploiements et la maintenance

HashiCorp Terraform est un outil open source populaire permettant de créer une infrastructure cloud sécurisée et prévisible sur plusieurs fournisseurs cloud. Voir Excellence opérationnelle : utiliser l’infrastructure en tant que code pour les déploiements et la maintenance

2. Utiliser les interfaces ouvertes et les formats de données ouverts

Utiliser des formats de données ouverts

L’utilisation d’un format de données ouvert signifie qu’il n’existe aucune restriction sur son utilisation. C’est important, car cela supprime les obstacles à l’accès et à l’utilisation des données pour l’analyse et la conduite de perspectives. Les formats ouverts, tels que ceux basés sur Apache Spark, ajoutent également des fonctionnalités qui renforcent les performances grâce à la prise en charge des transactions ACID, de la diffusion en continu unifiée et du traitement des données par lots. De plus, l’open source est pilotée par la communauté, ce qui signifie que la communauté travaille constamment à améliorer les fonctionnalités existantes et à en ajouter de nouvelles, ce qui permet aux utilisateurs de tirer le meilleur parti de leurs projets.

Le format de données principal utilisé dans la plateforme Data Intelligence est Delta Lake, un format de données entièrement ouvert qui offre de nombreux avantages, des fonctionnalités de fiabilité aux améliorations des performances, voir Utiliser un format de données qui prend en charge les transactions ACID et Meilleures pratiques pour l’efficacité des performances.

En raison de sa nature ouverte, Delta Lake est fourni avec un grand écosystème. Des dizaines d’outils et d’applications tiers prennent en charge Delta Lake.

Pour continuer à favoriser l’interopérabilité, le format universel Delta (UniForm) vous permet de lire des tables Delta avec des clients de lecteur Iceberg. UniForm génère automatiquement les métadonnées Iceberg de manière asynchrone, sans réécrire les données, afin que les clients Iceberg puissent lire les tables Delta comme s’il s’agissait de tables Iceberg. Une seule copie des fichiers de données sert les deux formats.

Le partage de données et de ressources IA peut permettre une meilleure collaboration et une meilleure prise de décision. Toutefois, lors du partage de données, il est important de maintenir le contrôle, de protéger vos données et de garantir la conformité aux lois et réglementations de partage de données pertinentes.

Delta Sharing est un protocole ouvert développé par Databricks pour le partage sécurisé de données avec d’autres organisations, indépendamment des plateformes informatiques utilisées. Si vous souhaitez partager des données avec des utilisateurs hors de votre espace de travail Databricks, qu’ils utilisent Databricks ou non, vous pouvez utiliser le protocole ouvert Delta Sharing pour partager vos données en toute sécurité. Si vous souhaitez partager des données avec des utilisateurs disposant d'un espace de travail Databricks activé pour Unity Catalog, vous pouvez utiliser le partage Delta Databricks-to-Databricks.

Dans les deux cas, vous pouvez partager des tables, des vues, des volumes, des modèles, et des notebooks.

Utilisez le protocole Delta Sharing ouvert pour partager des données avec des partenaires.

Delta Sharing offre une solution ouverte pour partager en toute sécurité des données en direct depuis votre lac de données vers n'importe quelle plateforme informatique. Les destinataires n'ont pas besoin d'être sur la plateforme Databricks, sur le même cloud, ou sur n'importe quel cloud. Delta Sharing est intégré nativement à Unity Catalog, permettant aux organisations de gérer de manière centralisée et d'auditer les données et ressources IA partagées à travers l'entreprise, et de partager en toute confiance des données et ressources IA tout en respectant les exigences de sécurité et de conformité.

Les fournisseurs de données peuvent partager des données dynamiques et des modèles IA à partir de leur emplacement dans la plateforme de données sans répliquer ni déplacer ces données vers un autre système. Cette approche réduit les coûts opérationnels du partage de données et d’IA, car les fournisseurs de données n'ont pas besoin de répliquer les données plusieurs fois sur différents clouds, géographies ou plateformes de données pour chacun de leurs consommateurs de données.
Utilisez Delta Sharing de Databricks à Databricks entre les utilisateurs de Databricks.

Si vous souhaitez partager des données avec des utilisateurs qui n’ont pas accès à votre metastore Unity Catalog, vous pouvez utiliser le protocole Delta Sharing Databricks à Databricks, à condition que les destinataires aient accès à un espace de travail Databricks activé pour Unity Catalog. Le partage de Databricks à Databricks vous autorise à partager des données avec des utilisateurs d'autres comptes Databricks, entre régions de cloud et entre fournisseurs de cloud différents. C'est une excellente manière de partager de manière sécurisée des données entre différents métastores Unity Catalog dans votre propre compte Databricks.

Utilisez des normes ouvertes pour votre gestion du cycle de vie ML

Comme l’utilisation d’un format de données open source, l’utilisation de normes ouvertes pour vos flux de travail IA présente des avantages similaires en termes de flexibilité, d’agilité, de coût et de sécurité.

MLflow est une plateforme open source qui permet de gérer le cycle de vie ML et IA. Databricks offre une version complètement managée et hébergée de MLflow, qui intègre des fonctionnalités de sécurité d’entreprise, une haute disponibilité et d’autres fonctionnalités d’espace de travail Databricks telles que la gestion des expérimentations et des exécutions ainsi que le suivi des révisions de notebook.

Les composants principaux sont le suivi des expérimentations pour l’enregistrement et le suivi automatiques des modèles ML et Deep Learning, modèles comme format standard pour empaqueter des modèles machine learning, un registre de modèles intégré au catalogue Unity, et le modèle de niveau entreprise évolutif servant.

3. Simplifier la nouvelle implémentation de cas d’usage

Fournir une expérience en libre-service sur la plateforme

Il existe plusieurs avantages d’une plateforme où les utilisateurs ont l’autonomie pour utiliser les outils et les fonctionnalités en fonction de leurs besoins. L’investissement dans la création d’une plateforme libre-service facilite la mise à l’échelle pour servir davantage d’utilisateurs et favoriser une plus grande efficacité en réduisant la nécessité d’une implication humaine pour approvisionner des utilisateurs, résoudre des problèmes et traiter des demandes d’accès.

La plateforme de Data Intelligence de Databricks dispose de toutes les capacités nécessaires pour offrir une expérience en libre-service. Bien qu’il puisse y avoir une étape d’approbation obligatoire, la meilleure pratique consiste à automatiser entièrement la configuration lorsqu’une unité commerciale demande l’accès au lakehouse. Provisionnez automatiquement leur nouvel environnement, synchronisez les utilisateurs et utilisez l’authentification unique (SSO), fournissez un contrôle d’accès aux données partagées et des stockages d’objets distincts pour leurs propres données, etc. Avec un catalogue de données central de jeux de données sémantiquement cohérents et prêts pour l’entreprise, de nouvelles unités commerciales peuvent accéder rapidement et de manière sécurisée aux fonctionnalités de lakehouse et aux données dont elles ont besoin.

Privilégier le calcul serverless

Pour le calcul serverless sur la plateforme Azure Databricks, la couche de calcul s’exécute dans le compte Databricks du client. Les administrateurs de cloud n’ont plus besoin de gérer des environnements cloud complexes qui nécessitent l’ajustement des quotas, la création et la maintenance de ressources réseau et la connexion à des sources de facturation. Les utilisateurs bénéficient d’une latence de démarrage de cluster proche de zéro et d’une concurrence de requête améliorée.

Utiliser des modèles de calcul prédéfinis

Les modèles prédéfinis aident à contrôler la façon dont les ressources de calcul peuvent être utilisées ou créées par les utilisateurs : limiter la création d’un cluster utilisateur aux paramètres prescrits ou à un certain nombre, simplifier l’interface utilisateur ou contrôler les coûts en limitant le coût maximal par cluster.

La plateforme Data Intelligence effectue cette opération de deux manières :

Fournissez des clusters partagés en tant qu’environnements immédiats pour les utilisateurs. Sur ces clusters, utilisez la mise à l’échelle automatique jusqu’à un tout petit nombre de nœuds afin d’éviter des coûts d’inactivité élevés.
Pour un environnement standardisé, utilisez des stratégies de calcul pour restreindre la taille ou les fonctionnalités du cluster ou définir des clusters de taille t-shirt (S, M, L).

Utiliser les fonctionnalités d’IA pour augmenter la productivité

Outre l’augmentation de la productivité, les outils d’IA peuvent également aider à identifier les motifs d’erreurs et à fournir des aperçus supplémentaires en fonction de l’entrée. Dans l’ensemble, l’incorporation de ces outils dans le processus de développement peut considérablement réduire les erreurs et faciliter la prise de décision, ce qui entraîne un délai plus rapide pour la mise en production.

Databricks IQ, le moteur de connaissances basé sur l’IA, est au cœur de la plateforme Data Intelligence. Il exploite les métadonnées Unity Catalog pour comprendre vos tables, colonnes, descriptions et ressources de données populaires au sein de votre organisation pour apporter des réponses personnalisées. Il permet plusieurs fonctionnalités qui améliorent la productivité lors de l’utilisation de la plateforme, telles que :

L’Assistant Databricks vous permet d’interroger des données à l’aide d’une interface conversationnelle, ce qui vous rend plus productif dans Databricks. Décrivez votre tâche en anglais et laisser l’assistant générer des requêtes SQL, expliquer le code complexe et corriger automatiquement les erreurs.
Commentaires générés par l’IA pour n’importe quelle table ou colonne de table gérée par Unity Catalog accélère le processus de gestion des métadonnées. Cependant, les modèles d’IA ne sont pas toujours exacts et les commentaires doivent être passés en revue avant l’enregistrement. Databricks recommande vivement une évaluation humaine des commentaires générés par l’IA pour rechercher les inexactitudes.

4. Garantir la cohérence et la facilité d’utilisation des données

Offrir des données en tant que produits réutilisables auxquels l’entreprise peut faire confiance

Les organisations qui cherchent à se baser sur l’IA et les données doivent souvent fournir à leurs équipes internes des données fiables et de haute qualité. Une approche pour prioriser la qualité et la facilité d’utilisation consiste à appliquer la pensée produits à vos ressources de données publiées en créant des « produits de données » bien définis. La création de ces produits de données garantit que les organisations établissent des normes et une base fiable de vérité métier pour leurs données et leurs objectifs en matière d’IA. Les produits de données fournissent finalement une valeur lorsque les utilisateurs et les applications disposent des données appropriées, au bon moment, de la bonne qualité, au bon format. Bien que cette valeur ait traditionnellement été réalisée sous la forme d’opérations plus efficaces grâce à des coûts plus faibles, à des processus plus rapides et à des risques réduits, les produits de données modernes peuvent également ouvrir la voie à de nouvelles offres à valeur ajoutée et à des opportunités de partage de données au sein d’un secteur ou d’un écosystème partenaire d’une organisation.

Consultez le billet de blog Construire des produits de données de haute qualité et fiables avec Databricks.

Publier des produits de données sémantiquement cohérents au sein de l’entreprise

Un lac de données contient généralement des données provenant de différents systèmes sources. Ces systèmes peuvent avoir des noms différents pour un seul et même concept (par exemple, client et compte) ou utiliser le même identifiant pour faire référence à différents concepts. Afin que les utilisateurs professionnels puissent facilement combiner ces jeux de données de manière significative, les données doivent être rendues homogènes dans toutes les sources pour être sémantiquement cohérentes. En outre, pour que certaines données soient utiles pour l’analyse, les règles métier internes, telles que la reconnaissance des revenus, doivent être appliquées correctement. Pour garantir que tous les utilisateurs utilisent les données correctement interprétées, les jeux de données avec ces règles doivent être mis à disposition et publiés dans Unity Catalog. L’accès aux données sources doit être limité aux équipes qui comprennent l’utilisation correcte.

Fournir un catalogue central pour la découverte et la traçabilité

Un catalogue central pour la découverte et la traçabilité permet aux consommateurs de données d’accéder aux données provenant de plusieurs sources dans l’entreprise, ce qui réduit la surcharge opérationnelle pour l’équipe de gouvernance centrale.

Dans Unity Catalog, les administrateurs et les gestionnaires de données gèrent les utilisateurs et leur accès aux données de manière centralisée dans tous les espaces de travail d’un compte Azure Databricks. Les utilisateurs de différents espaces de travail peuvent partager les mêmes données et en fonction des privilèges utilisateur accordés de manière centralisée dans Unity Catalog, peuvent accéder aux données ensemble.

Pour la découverte de données, le catalogue Unity prend en charge les utilisateurs avec des fonctionnalités telles que :

Catalog Explorer est l’interface utilisateur principale pour de nombreuses fonctionnalités de Unity Catalog. Vous pouvez utiliser Catalog Explorer pour afficher les détails du schéma, prévisualiser des exemples de données et afficher les détails et les propriétés de la table. Les administrateurs peuvent afficher et changer les propriétaires, tandis que les administrateurs et les propriétaires d’objets de données peuvent accorder et révoquer des autorisations. Vous pouvez également utiliser Databricks Search, qui permet aux utilisateurs de rechercher des ressources de données (telles que des tables, des colonnes, des vues, des tableaux de bord, des modèles, etc.) facilement et en toute transparence. Les utilisateurs voient des résultats pertinents pour leurs demandes de recherche, et auxquels ils ont accès.
Traçabilité des données pour toutes les requêtes exécutées sur un cluster Azure Databricks ou un entrepôt SQL. La traçabilité est prise en charge pour toutes les langues et est capturée au niveau de la colonne. Les données de traçabilité incluent les notebooks, les travaux et les tableaux de bord liés à la requête. La traçabilité peut être visualisée dans Catalog Explorer en quasi-temps réel et récupérée avec l’API REST Azure Databricks.

Pour permettre aux entreprises de fournir à leurs utilisateurs une vue holistique de toutes les données sur toutes les plateformes de données, Unity Catalog fournit l’intégration aux catalogues de données d’entreprise (parfois appelés « catalogue de catalogues »).

Partager via

Bonnes pratiques en matière d’interopérabilité et de facilité d’utilisation

1. Définir des normes pour l’intégration

Utiliser des modèles d’intégration standard et réutilisables pour l’intégration externe

Utiliser des connecteurs optimisés pour ingérer des sources de données dans le lakehouse

Utiliser des outils partenaires certifiés

Réduire la complexité des pipelines d’engineering données

Utiliser l’infrastructure en tant que code (IaC) pour les déploiements et la maintenance

2. Utiliser les interfaces ouvertes et les formats de données ouverts

Utiliser des formats de données ouverts

Utilisez des normes ouvertes pour votre gestion du cycle de vie ML

3. Simplifier la nouvelle implémentation de cas d’usage

Fournir une expérience en libre-service sur la plateforme

Privilégier le calcul serverless

Utiliser des modèles de calcul prédéfinis

Utiliser les fonctionnalités d’IA pour augmenter la productivité

4. Garantir la cohérence et la facilité d’utilisation des données

Offrir des données en tant que produits réutilisables auxquels l’entreprise peut faire confiance

Publier des produits de données sémantiquement cohérents au sein de l’entreprise

Fournir un catalogue central pour la découverte et la traçabilité

Commentaires

Ressources supplémentaires

Partager via

Bonnes pratiques en matière d’interopérabilité et de facilité d’utilisation

1. Définir des normes pour l’intégration

Utiliser des modèles d’intégration standard et réutilisables pour l’intégration externe

Utiliser des connecteurs optimisés pour ingérer des sources de données dans le lakehouse

Utiliser des outils partenaires certifiés

Réduire la complexité des pipelines d’engineering données

Utiliser l’infrastructure en tant que code (IaC) pour les déploiements et la maintenance

2. Utiliser les interfaces ouvertes et les formats de données ouverts

Utiliser des formats de données ouverts

Activer le partage sécurisé des données et de l’IA pour toutes les ressources de données

Utilisez des normes ouvertes pour votre gestion du cycle de vie ML

3. Simplifier la nouvelle implémentation de cas d’usage

Fournir une expérience en libre-service sur la plateforme

Privilégier le calcul serverless

Utiliser des modèles de calcul prédéfinis

Utiliser les fonctionnalités d’IA pour augmenter la productivité

4. Garantir la cohérence et la facilité d’utilisation des données

Offrir des données en tant que produits réutilisables auxquels l’entreprise peut faire confiance

Publier des produits de données sémantiquement cohérents au sein de l’entreprise

Fournir un catalogue central pour la découverte et la traçabilité

Commentaires

Ressources supplémentaires