Idées de solution
Cet article présente une idée de solution. Votre architecte cloud peut s’appuyer sur ces conseils pour visualiser les principaux composants d’une implémentation typique de cette architecture. Utilisez cet article comme point de départ pour concevoir une solution bien conçue qui répond aux exigences spécifiques de votre charge de travail.
Cette solution présente les principes clés et les composants des architectures de données modernes. Azure Databricks forme le cœur de la solution. Cette plateforme fonctionne en toute transparence avec d’autres services, tels qu’Azure Data Lake Storage, Microsoft Fabric et Power BI.
Apache® et Apache Spark™ sont soit des marques déposées, soit des marques commerciales d’Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.
Architecture
Téléchargez un fichier Visio de cette architecture.
Dataflow
Azure Databricks ingère des données brutes de diffusion en continu à partir d’Azure Event Hubs à l’aide de Tables dynamiques Delta.
Fabric Data Factory charge les données de lot brutes dans Data Lake Storage.
Pour le stockage des données :
Data Lake Storage héberge tous les types de données, y compris les données structurées, non structurées et partiellement structurées. Il stocke également les données par lots et en streaming.
Delta Lake forme la couche organisée du lac de données. Il stocke les données affinées dans un format open source.
Azure Databricks fonctionne bien avec une architecture en médailles qui organise les données en couches :
- Couche bronze : contient des données brutes.
- Couche Argent : contient des données nettoyées et filtrées.
- Couche Or : stocke les données agrégées qui sont utiles pour l’analytique métier.
La plateforme analytique ingère les données à partir de sources de données en streaming et par lots disparates. Les scientifiques des données utilisent ces données pour des tâches telles que :
- Préparation des données.
- Exploration des données.
- Préparation du modèle.
- Entraînement du modèle.
MLflow gère le suivi des paramètres, des métriques et des modèles dans les exécutions de code de science des données. Les possibilités de développement sont flexibles :
- Le code peut être en SQL, Python, R et Scala.
- Le code peut utiliser des bibliothèques et infrastructures open source populaires telles que Koalas, Pandas et scikit-learn, qui sont préinstallées et optimisées.
- Les utilisateurs peuvent optimiser les performances et les coûts en utilisant des options de calcul à nœud unique et à plusieurs nœuds.
Les modèles Machine Learning sont disponibles dans les formats suivants :
- Azure Databricks stocke les informations sur les modèles dans le registre de modèles MLflow. Le registre rend les modèles disponibles via des API de traitement par lots, de streaming et REST.
- La solution peut également déployer les modèles sur Azure Kubernetes Service (AKS) ou les services web Azure Machine Learning.
Les services qui fonctionnent avec les données se connectent à une seule source de données sous-jacente pour garantir la cohérence. Par exemple, vous pouvez exécuter des requêtes SQL sur le lac de données à l’aide d’entrepôts SQL Azure Databricks. Ce service :
- Fournit un éditeur de requête et un catalogue, l’historique des requêtes, un tableau de bord de base et des alertes.
- Utilise la sécurité intégrée qui inclut des autorisations au niveau des lignes et des autorisations au niveau des colonnes.
- Utilise un moteur Delta alimenté par Photon pour améliorer les performances.
Vous pouvez mettre en miroir des jeux de données gold à partir du catalogue Azure Databricks Unity dans Fabric. Utilisez mise en miroir Azure Databricks dans Fabric pour s’intégrer facilement sans avoir à déplacer ou répliquer des données.
Power BI génère des rapports et des tableaux de bord analytiques et historiques à partir de la plateforme de données unifiée. Ce service utilise les fonctionnalités suivantes quand il fonctionne avec Azure Databricks :
- Un connecteur Azure Databricks intégré pour la visualisation des données sous-jacentes.
- Connectivité de base de données Java optimisée et pilotes Open Database Connectivity.
- Vous pouvez utiliser Direct Lake avec la mise en miroir Azure Databricks dans Fabric pour charger vos modèles sémantiques Power BI pour des requêtes plus performantes.
La solution utilise Unity Catalog et les services Azure pour la collaboration, les performances, la fiabilité, la gouvernance et la sécurité :
Azure Databricks Unity Catalog fournit des fonctionnalités de contrôle d’accès, d’audit, de traçabilité et de découverte de données centralisées dans les espaces de travail Azure Databricks.
Microsoft Purview fournit des services de découverte des données, une classification des données sensibles et des insights de gouvernance sur le patrimoine de données.
Azure DevOps offre une intégration continue et un déploiement continu (CI/CD) et d’autres fonctionnalités de gestion de versions intégrées.
Azure Key Vault vous aide à gérer en toute sécurité les secrets, les clés et les certificats.
L’ID Microsoft Entra et le provisionnement System for Cross-domain Identity Management (SCIM) fournissent l’authentification unique pour les utilisateurs et groupes Azure Databricks. Azure Databricks prend en charge l’approvisionnement automatisé d’utilisateurs avec l’ID Microsoft Entra pour :
- Créez des utilisateurs et des groupes.
- Affectez à chaque utilisateur un niveau d’accès.
- Supprimez les utilisateurs et refusez leur accès.
Azure Monitor collecte et analyse la télémétrie des ressources Azure. En identifiant les problèmes de manière proactive, ce service optimise les performances et la fiabilité.
Microsoft Cost Management fournit des services de gouvernance financière pour les charges de travail Azure.
Composants
Cette solution utilise les composants décrits ci-dessous.
Composants principaux
Azure Databricks est une plateforme d’analytique des données qui utilise des clusters Spark pour traiter des flux de données volumineux. Il nettoie et transforme les données non structurées et les combine avec des données structurées. Il peut également entraîner et déployer des modèles Machine Learning. Dans cette architecture, Azure Databricks sert d’outil central pour l’ingestion, le traitement et le service des données. Il fournit un environnement unifié pour gérer l’ensemble du cycle de vie des données.
entrepôts SQL Azure Databricks sont des ressources de calcul que vous pouvez utiliser pour interroger et explorer des données sur Azure Databricks. Dans cette architecture, vous pouvez utiliser des points de terminaison SQL pour vous connecter directement à vos données à partir de Power BI.
Azure Databricks Delta Live Tables est une infrastructure déclarative permettant de créer des pipelines de traitement de données fiables, maintenables et testables. Dans cette architecture, Delta Live Tables vous aide à définir des transformations à effectuer sur vos données. Il vous aide également à gérer l’orchestration des tâches, la gestion des clusters, la surveillance, la qualité des données et la gestion des erreurs dans Azure Databricks.
Microsoft Fabric est une plateforme d’analytique et de données de bout en bout pour les organisations qui ont besoin d’une solution unifiée. La plateforme fournit des services tels que l’ingénierie des données, Data Factory, Data Science, Real-Time Intelligence, l’entrepôt de données et les bases de données. Cette architecture met en miroir les tables de catalogue Unity dans Fabric et utilise Direct Lake dans Power BI pour de meilleures performances.
Data Factory dans Microsoft Fabric est une plateforme d’intégration de données moderne que vous pouvez utiliser pour ingérer, préparer et transformer des données à partir d’un ensemble complet de sources de données dans Fabric. Cette architecture utilise des connecteurs intégrés à plusieurs sources de données pour l’ingestion rapide dans Data Lake Storage ou OneLake. Azure Databricks récupère et transforme ultérieurement les données de traitement par lots.
Event Hubs est une plateforme de streaming Big Data entièrement gérée. En tant que plateforme en tant que service, il fournit des fonctionnalités d’ingestion d’événements. Cette architecture utilise Event Hubs pour la diffusion en continu de données. Azure Databricks peut se connecter à ces données et les traiter à l’aide de Spark Streaming ou delta Live Tables.
Data Lake Storage est un lac de données évolutif et sécurisé pour les analyses hautes performances. Il gère plusieurs pétaoctets de données et prend en charge des centaines de gigaoctets de débit. Data Lake Storage peut stocker des données structurées, partiellement structurées et non structurées. Cette architecture utilise Data Lake Storage pour stocker les données de traitement par lots et de diffusion en continu.
Machine Learning est un environnement cloud qui vous aide à créer, déployer et gérer des solutions d’analyse prédictive. En utilisant ces modèles, vous pouvez prévoir le comportement, les résultats et les tendances. Dans cette architecture, Machine Learning utilise des données qu’Azure Databricks transforme pour l’apprentissage et l’inférence des modèles.
AKS est un service Kubernetes hautement disponible, sécurisé et complètement managé. AKS facilite le déploiement et la gestion des applications conteneurisées. Dans cette architecture, AKS héberge des modèles Machine Learning dans un environnement conteneurisé pour une inférence évolutive.
Delta Lake est une couche de stockage qui utilise un format de fichier ouvert. Cette couche s’exécute sur des solutions de stockage cloud comme Data Lake Storage. Delta Lake prend en charge le versioning des données, la restauration et les transactions pour la mise à jour, la suppression et la fusion de données. Dans cette architecture, Delta Lake fonctionne comme format de fichier principal pour l’écriture et la lecture de données à partir de Data Lake Storage.
MLflow est une plateforme open source permettant de gérer le cycle de vie du Machine Learning. Ses composants surveillent les modèles Machine Learning pendant l’entraînement et l’opération. Dans cette architecture, similaire à Machine Learning, vous pouvez utiliser MLflow dans Azure Databricks pour gérer votre cycle de vie machine learning. Entraîner et déduire des modèles à l’aide des données Unity Catalog que vous avez transformées dans Azure Databricks.
Composants de création de rapports et de gouvernance
catalogue Azure Databricks Unity fournit des fonctionnalités centralisées de contrôle d’accès, d’audit, de traçabilité et de découverte de données dans les espaces de travail Azure Databricks. Dans cette architecture, Unity Catalog fonctionne en tant qu’outil principal dans Azure Databricks pour gérer et sécuriser l’accès aux données.
Power BI est une collection de services logiciels et d’applications. Ces services créent et partagent des rapports qui se connectent et visualisent des sources de données non liées. Avec Azure Databricks, Power BI peut fournir une détermination de la cause racine et une analyse des données brutes. Cette architecture utilise Power BI pour créer des tableaux de bord et des rapports qui fournissent des insights sur les données traitées par Azure Databricks et Fabric.
Microsoft Purview gère les données locales, multiclouds et SaaS (software as a service). Ce service de gouvernance gère les cartes de paysage des données. Ses fonctionnalités incluent la découverte automatisée des données, la classification des données sensibles et la traçabilité des données. Cette architecture utilise Microsoft Purview pour analyser et suivre les données ingérées dans le catalogue Unity, Fabric, Power BI et Data Lake Storage.
Azure DevOps est une plateforme d’orchestration DevOps. Ce SaaS fournit des outils et des environnements pour générer, déployer et collaborer sur des applications. Cette architecture utilise Azure DevOps pour automatiser le déploiement de l’infrastructure Azure. Vous pouvez également utiliser GitHub pour l’automatisation et le contrôle de version du code Azure Databricks pour une meilleure collaboration, le suivi des modifications et l’intégration avec des pipelines CI/CD.
Key Vault stocke et contrôle l’accès aux secrets, tels que les jetons, les mots de passe et les clés API. Key Vault crée et contrôle également des clés de chiffrement et gère les certificats de sécurité. Cette architecture utilise Key Vault pour stocker les clés de signature d’accès partagé à partir de Data Lake Storage. Ces clés sont ensuite utilisées dans Azure Databricks et d’autres services pour l’authentification.
Microsoft Entra ID offre des services de gestion des identités et des accès basés sur le cloud. Ces fonctionnalités permettent aux utilisateurs de se connecter et d’accéder aux ressources. Cette architecture utilise l’ID Microsoft Entra pour authentifier et autoriser les utilisateurs et les services dans Azure.
SCIM vous permet de configurer l’approvisionnement sur le compte Azure Databricks à l’aide de l’ID Microsoft Entra. Cette architecture utilise SCIM pour gérer les utilisateurs qui accèdent aux espaces de travail Azure Databricks.
Azure Monitor collecte et analyse les données dans les environnements et les ressources Azure. Ces données incluent la télémétrie des applications, comme les métriques de performances et les journaux d’activité. Cette architecture utilise Azure Monitor pour surveiller l’intégrité des ressources de calcul dans Azure Databricks et Machine Learning et d’autres composants qui envoient des journaux à Azure Monitor.
Cost Management vous aide à gérer les dépenses cloud. En utilisant des budgets et des recommandations, ce service organise les dépenses et vous montre comment réduire les coûts. Cette architecture utilise Cost Management pour surveiller et contrôler le coût de l’ensemble de la solution.
Détails du scénario
Architectures de données modernes :
- Unification des charges de travail de données, d’analytique et d’intelligence artificielle.
- Exécution efficace et fiable à n’importe quelle échelle.
- Fourniture d’insights par le biais de tableaux de bord analytiques, de rapports opérationnels ou d’analytiques avancées.
Cette solution décrit une architecture de données moderne qui atteint ces objectifs. Azure Databricks forme le cœur de la solution. Cette plateforme fonctionne de façon transparente avec d’autres services. Ensemble, ces services fournissent une solution qui est :
- Simple : l’analytique unifiée, la science des données et le Machine Learning simplifient l’architecture des données.
- Ouverte : la solution prend en charge le code open source, les standards ouverts et les frameworks ouverts. Elle fonctionne également avec les langages de programmation, les bibliothèques et les environnements de développement intégrés (IDE) connus. Par le biais des connecteurs natifs et des API, la solution fonctionne également avec un large choix d’autres services.
- Collaborative : les ingénieurs Données, les scientifiques des données et les analystes travaillent en collaboration avec cette solution. Ils peuvent utiliser des tableaux de bord, des IDE, des notebooks collaboratifs et d’autres outils pour accéder aux données sous-jacentes communes et les analyser.
Cas d’usage potentiels
Le système créé par Swiss Re Group pour sa division Property & Casualty Reinsurance a inspiré cette solution. En plus du secteur de l’assurance, tout domaine qui fonctionne avec le Big Data ou le Machine Learning peut également tirer parti de cette solution. Voici quelques exemples :
- Le secteur de l’énergie.
- Vente au détail et e-commerce.
- Les banques et les finances.
- Médecine et soins de santé.
Étapes suivantes
- Créer un pipeline de données de bout en bout dans Azure Databricks
- Exécuter votre premier pipeline Delta Live Tables
Ressources associées
Pour en savoir plus sur les solutions associées, consultez les guides et architectures suivants.
Guides sur l’architecture connexe
- Monitor Azure Databricks à l’aide d’Azure Monitor
- Comparer les produits de Machine Learning de Microsoft
- Choisir une technologie de traitement du langage naturel
- Sélectionner une technologie de traitement de flux