Modifier

Partager via


Plateforme de données moderne pour les petites et moyennes entreprises à l’aide de Microsoft Fabric et d’Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

idées de solutions

Cet article décrit une idée de solution. Votre architecte cloud peut utiliser ces conseils pour vous aider à visualiser les principaux composants d’une implémentation classique de cette architecture. Utilisez cet article comme point de départ pour concevoir une solution bien conçue qui s’aligne sur les exigences spécifiques de votre charge de travail.

Cet article explique comment les petites et moyennes entreprises (PME) peuvent combiner des investissements existants dans Azure Databricks avec une plateforme de données SaaS (Software as a Service) entièrement managée, telle que Microsoft Fabric. Les plateformes de données SaaS sont des solutions d’analytique des données de bout en bout qui s’intègrent facilement à des outils tels qu’Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 et d’autres technologies Microsoft.

Architecture simplifiée

Diagramme montrant une architecture simplifiée pour les petites et moyennes entreprises.

Télécharger un fichier Visio de cette architecture.

L’interopérabilité entre Azure Databricks et Microsoft Fabric fournit une solution robuste qui réduit la fragmentation des données tout en améliorant les fonctionnalités analytiques.

Microsoft Fabric fournit un lac de données ouvert et régi, appelé OneLake, comme stockage SaaS sous-jacent. OneLake utilise le format Delta Parquet, qui est le même format qu’Azure Databricks. Pour accéder à vos données Azure Databricks à partir de OneLake, vous pouvez utiliser raccourcis OneLake dans Fabric ou mettre en miroir le catalogue Azure Databricks Unity dans Fabric. Cette intégration vous permet d’augmenter vos systèmes d’analytique Azure Databricks avec l’IA générative sur OneLake.

Vous pouvez également utiliser le mode lac direct dans Power BI sur vos données Azure Databricks dans OneLake. Le mode lac direct simplifie la couche de service et améliore les performances des rapports. OneLake prend en charge les API pour Azure Data Lake Storage et stocke toutes les données tabulaires au format Delta Parquet.

Par conséquent, les notebooks Azure Databricks peuvent utiliser des points de terminaison OneLake pour accéder aux données stockées. L’expérience est identique à l’accès aux données via un entrepôt Microsoft Fabric. Cette intégration vous permet d’utiliser Fabric ou Azure Databricks sans remodeler vos données.

Architecture

Diagramme montrant une architecture SMB.

Télécharger un fichier Visio de cette architecture.

Dataflow

  1. Azure Data Factory : Utiliser des pipelines Azure Data Factory existants pour ingérer des données structurées et non structurées à partir de systèmes sources et les placer dans le lac de données existant.

  2. Microsoft Dynamics 365 : Vous pouvez utiliser des sources de données Microsoft Dynamics 365 pour créer des tableaux de bord DÉCISIONNEL centralisés sur des jeux de données augmentés à l’aide d’Azure Synapse Link ou de Microsoft Fabric Link. Ramenez les données fusionnées et traitées dans Microsoft Dynamics 365 et Power BI pour une analyse plus approfondie.

  3. l’ingestion de données de streaming : données de streaming peuvent être ingérées via Azure Event Hubs ou Azure IoT Hubs, en fonction des protocoles utilisés pour envoyer ces messages.

  4. chemin froid : Vous pouvez placer les données de streaming dans le lac de données centralisé pour une analyse, un stockage et des rapports supplémentaires à l’aide d’Azure Databricks. Ces données peuvent ensuite être unifiées avec d’autres sources de données pour l’analyse par lots.

  5. chemin d’accès à chaud : données de streaming peuvent être analysées en temps réel et des tableaux de bord en temps réel peuvent être créés via Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks : Les notebooks Azure Databricks existants peuvent ensuite être utilisés pour effectuer le nettoyage, l’unification et les analyses des données comme d’habitude. Envisagez d’utiliser l’architecture de médaillon comme :

    • Bronze, qui contient des données brutes.

    • Silver, qui contient des données nettoyées et filtrées.

    • Gold, qui stocke les données agrégées utiles pour l’analytique métier.

  7. Données Golden ou un entrepôt de données : Pour les données d’or ou un entrepôt de données, continuez à utiliser Azure Databricks SQL ou créez une mise en miroir du catalogue Azure Databricks Unity dans Microsoft Fabric. Créez facilement des tableaux de bord basés sur l’analyse serverless des données dans Fabric lakehouses sans aucune configuration requise à l’aide des modèles sémantiques Power BI créés automatiquement pour tous les lakehouses Fabric. Fabric Data Warehouse peut également être utilisé comme couche d’or si les exigences analytiques nécessitent un calcul plus rapide.

Les outils utilisés pour la gouvernance, la collaboration, la sécurité, les performances et la surveillance des coûts sont les suivants :

  • Découvrir et gouverner

    • Microsoft Purview fournit des services de découverte de données, une classification des données sensibles et des insights de gouvernance dans le patrimoine de données.

    • Unity Catalog fournit des fonctionnalités de contrôle d’accès, d’audit, de traçabilité et de découverte de données centralisées dans les espaces de travail Azure Databricks.

  • Azure DevOps fournit une intégration continue et un déploiement continu et d’autres fonctionnalités de contrôle de version intégrées.

  • Azure Key Vault gère les secrets, les clés et les certificats.

  • Microsoft Entra ID fournit l’authentification unique pour les utilisateurs d’Azure Databricks. Azure Databricks prend en charge l’approvisionnement automatisé d’utilisateurs avec l’ID Microsoft Entra pour :

    • Créez des utilisateurs.

    • Affectez à chaque utilisateur un niveau d’accès.

    • Supprimez les utilisateurs et refusez leur accès.

  • Azure Monitor collecte et analyse les données de télémétrie des ressources Azure. Ce service optimise les performances et la fiabilité en identifiant de manière proactive les problèmes.

  • Microsoft Cost Management fournit des services de gouvernance financière pour les charges de travail Azure.

Composants

  • Data Lake Storage est un service de stockage de données évolutif conçu pour les données structurées et non structurées. Dans cette architecture, Data Lake Storage sert d’infrastructure sous-jacente pour Delta Lake. Il s’agit de la couche de stockage principale pour les données brutes et traitées, ce qui permet une ingestion, un stockage et une récupération de données efficaces pour les charges de travail d’analyse et de Machine Learning.

  • Azure Data Factory est un service d’intégration de données basé sur le cloud qui orchestre et automatise le déplacement et la transformation des données. Azure Data Factory est utilisé pour créer, planifier et orchestrer des pipelines de données qui déplacent et transforment des données entre différents magasins de données et services. Il permet de garantir un flux de données et une intégration transparents.

  • Event Hubs est un service d’ingestion de données en temps réel qui peut traiter des millions d’événements par seconde à partir de n’importe quelle source. Dans cette architecture, Event Hubs capture et diffuse en continu de grands volumes de données provenant de différentes sources pour permettre un traitement analytique en temps réel et piloté par les événements.

  • Azure IoT Hub est un service géré qui améliore la sécurité et la communication fiable entre les appareils IoT et le cloud. Azure IoT Hub facilite l’ingestion, le traitement et l’analyse des données de télémétrie à partir d’appareils IoT pour fournir des insights en temps réel et activer la supervision à distance.

  • Microsoft Dataverse est une plateforme de données évolutive que les organisations peuvent utiliser pour stocker et gérer en toute sécurité les données utilisées par les applications métier. Dans cette architecture, elle est référencée comme source de données potentielle.

    • Azure Synapse Link connecte des applications Dynamics avec Azure Synapse Analytics ou Data Lake Storage. Dans cette architecture, elle est utilisée pour copier des données en quasi temps réel de Dataverse vers Data Lake Storage.

    • Microsoft Fabric Link connecte des applications Dynamics à Microsoft Fabric. Dans cette architecture, elle est utilisée pour répliquer des données de Dataverse vers Microsoft Fabric en quasi-temps réel.

  • Azure Databricks est une plateforme d’analytique basée sur Apache Spark. Azure Databricks est utilisé pour le traitement big data, le Machine Learning et les tâches d’ingénierie des données. Cette plateforme fournit un espace de travail collaboratif pour les scientifiques des données et les ingénieurs.

    • Delta Lake est une couche de stockage open source qui apporte des transactions ACID aux charges de travail Apache Spark et Big Data. Delta Lake est utilisé pour fournir cette fonctionnalité au stockage data lake.

    • Azure Databricks SQL est un service d’analytique SQL qui permet aux utilisateurs d’exécuter des requêtes SQL sur des données stockées dans Azure Databricks. Dans cette architecture, Azure Databricks SQL fournit une interface SQL puissante pour interroger et analyser des données, ce qui permet une analytique interactive et ad hoc.

    • IA et Machine Learning englobent une gamme de technologies et de services qui permettent le développement, le déploiement et la gestion des modèles Machine Learning. Les services IA et Machine Learning sont utilisés pour créer, entraîner et déployer des modèles prédictifs. Cette fonctionnalité permet de prendre des décisions pilotées par les données.

    • catalogue Unity est une solution de gouvernance des données qui fournit un contrôle d’accès centralisé, un audit, une traçabilité et des fonctionnalités de découverte des données dans les espaces de travail Databricks. Unity Catalog permet de garantir la gouvernance et la sécurité des données en fournissant des contrôles d’accès précis, un audit et un suivi de traçabilité des données.

  • architecture medallion lakehouse est un modèle d’architecture de données qui organise les données en bronze, argent et couches d’or pour un traitement et une analytique efficaces des données. Ce modèle d’architecture est implémenté ici à l’aide de Data Lake Storage, Delta Lake et Azure Databricks, qui permet un traitement et une analytique des données évolutifs et efficaces.

  • Microsoft Fabric est une plateforme de données complète qui intègre différents services et outils de données pour offrir une expérience transparente de gestion et d’analytique des données. Microsoft Fabric connecte et intègre des données provenant de plusieurs sources, ce qui permet une analyse complète des données et des insights au sein de l’organisation.

    • Real-Time Intelligence est une fonctionnalité de traitement des données qui permet aux organisations d’ingérer, de traiter et d’analyser les données en temps réel. Real-Time Intelligence traite la diffusion en continu de données provenant de différentes sources. Il fournit des insights en temps réel et active des actions automatisées basées sur des modèles de données.

    • raccourcis OneLake créer un lien sur place entre OneLake et une autre source de données. Les raccourcis OneLake sont utilisés pour simplifier l’accès aux données et la gestion, qui fournit une vue unifiée des données au sein de l’organisation.

  • Power BI est un service d’analytique métier qui fournit des visualisations interactives et des fonctionnalités décisionnels. Il dispose d’une interface simple pour permettre aux utilisateurs de créer leurs propres rapports et tableaux de bord interactifs. Ces outils permettent la visualisation des données et les insights pour les utilisateurs professionnels.

  • Microsoft Purview est un service de gouvernance des données unifié qui aide les organisations à gérer et à régir leurs données dans différentes sources. Microsoft Purview fournit des fonctionnalités de catalogue de données, de suivi de traçabilité et de gouvernance des données. Ces fonctionnalités permettent de garantir la conformité et la sécurité des données au sein de l’organisation.

  • Microsoft Entra ID est une solution de gestion des identités et des accès basée sur le cloud qui permet de garantir des connexions sécurisées et d’accéder aux ressources telles que Microsoft 365, Azure et d’autres applications SaaS. Dans cette architecture, Microsoft Entra ID fournit une gestion sécurisée des identités et des accès pour les ressources Azure. Cette fonctionnalité permet des connexions sécurisées, gère les identités des utilisateurs et permet de s’assurer que l’accès aux données et aux ressources est autorisé.

  • Microsoft Cost Management est une suite d’outils FinOps que les organisations peuvent utiliser pour analyser, surveiller et optimiser les coûts de Microsoft Cloud. Ces outils fournissent une gouvernance financière sur les ressources Azure dans cette architecture.

  • Key Vault est un service cloud qui stocke et gère les secrets, tels que les clés API, les mots de passe, les certificats et les clés de chiffrement. Ce service permet aux utilisateurs et aux applications d’accéder à ces secrets en toute sécurité. Lorsque vous stockez vos clés et secrets dans Key Vault, vous pouvez les gérer à un seul endroit. Dans cette architecture, Azure Databricks peut récupérer des secrets de Key Vault pour authentifier et accéder à Data Lake Storage. Ce processus permet de garantir une intégration sécurisée et transparente entre ces services.

  • azure Monitor est un service de supervision complet qui offre une observabilité complète pour les applications, l’infrastructure et les réseaux. Azure Monitor permet aux utilisateurs de collecter, d’analyser et d’agir sur les données de télémétrie à partir de leurs environnements Azure et locaux pour identifier de manière proactive les problèmes et optimiser les performances et la fiabilité.

  • Azure DevOps est un ensemble d’outils de développement qui prennent en charge une culture collaborative et des processus rationalisés. Ces outils permettent aux développeurs, aux responsables de projet et aux contributeurs de développer des logiciels plus efficacement. Azure DevOps fournit des fonctionnalités intégrées telles qu’Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans et Azure Artifacts. Vous pouvez accéder à ces fonctionnalités via un navigateur web ou un client d’environnement de développement intégré.

  • gitHub est un service d’hébergement de référentiel Git basé sur le cloud qui simplifie le contrôle de version et la collaboration pour les développeurs. Il permet aux individus et aux équipes de stocker et de gérer leur code, de suivre les modifications et de collaborer sur des projets à l’aide de Git. L’interface GitHub conviviale rend Git accessible aux codeurs de tous les niveaux de compétence. Vous pouvez utiliser Azure DevOps et GitHub ensemble pour implémenter des pratiques DevOps. Ces pratiques appliquent l’automatisation et la conformité dans vos pipelines de développement et de déploiement de charge de travail pour Azure Data Factory, Azure Databricks et Microsoft Fabric.

Alternatives

Alternatives de service dans cette architecture

  • d’ingestion Batch

  • d’ingestion Microsoft Dynamics 365

  • d’ingestion de données de streaming

    • La décision entre Azure IoT et Event Hubs dépend de la source des données de streaming, si le clonage et la communication bidirectionnelle avec les appareils de création de rapports sont nécessaires et les protocoles requis. Pour plus d’informations, consultez Comparer IoT Hub et Event Hubs.
  • Lakehouse

    • Microsoft Fabric Lakehouse est une plateforme d’architecture de données unifiée permettant de gérer et d’analyser des données structurées et non structurées dans un format ouvert qui utilise principalement des fichiers Delta Parquet. Il prend en charge deux types de stockage. Ces types de stockage sont des tables managées telles que CSV, Parquet ou Delta et des fichiers non managés. Les tables managées sont automatiquement reconnues. Les fichiers non managés nécessitent la création explicite d’une table. La plateforme active les transformations de données via des points de terminaison Spark ou SQL et s’intègre en toute transparence à d’autres composants Microsoft Fabric. Cette intégration transparente permet le partage de données sans duplication. Ce concept s’aligne sur l’architecture de médaillon commune utilisée dans les charges de travail analytiques. Pour plus d’informations, consultez Lakehouse dans Microsoft Fabric.
  • d’analytique en temps réel

    • azure Databricks

      • Si vous disposez d’une solution Azure Databricks existante, vous pouvez continuer à utiliser Structured Streaming pour l’analytique en temps réel. Pour plus d’informations, consultez Streaming sur Databricks.
    • Microsoft Fabric

      • Si vous avez utilisé d’autres services Azure pour l’analytique en temps réel dans le passé ou n’avez pas de solution d’analytique en temps réel existante, consultez Fabric Real-Time Intelligence et Azure Streaming Solutions.

      • Microsoft Fabric Structured Streaming utilise Spark Structured Streaming pour traiter et ingérer des flux de données en direct sous forme de tables ajoutées en continu. La diffusion en continu structurée prend en charge différentes sources de fichiers, telles que CSV, JSON, ORC, Parquet et les services de messagerie tels que Kafka et Event Hubs. Cette approche garantit un traitement de flux évolutif et tolérant aux pannes, qui optimise les environnements de production à débit élevé. Pour plus d’informations, consultez Microsoft Fabric Spark Structured Streaming.

  • d’ingénierie des données

  • Entrepôt de données ou couche or

    • Vous pouvez utiliser Microsoft Fabric ou Azure Databricks pour créer un entrepôt SQL ou une couche d’or. Pour obtenir un guide de décision sur la façon de choisir une solution de stockage de couches de données ou d’entrepôt de données dans Microsoft Fabric, consultez guide de décision Microsoft Fabric : choisissez un magasin de données. Pour plus d’informations sur les types SQL Warehouse dans Azure Databricks, consultez types SQL Warehouse.
  • de science des données

    • Utilisez Microsoft Fabric ou Azure Databricks pour les fonctionnalités de science des données. Pour plus d’informations sur l’offre Microsoft Fabric Data Science, consultez Qu’est-ce que la science des données dans Microsoft Fabric ?. Pour plus d’informations sur l’offre Azure Databricks, consultez IA et machine learning sur Databricks.

    • Microsoft Fabric Data Science diffère de Machine Learning. Machine Learning fournit une solution complète pour la gestion des flux de travail et le déploiement de modèles Machine Learning. Microsoft Fabric Data Science est adapté à un scénario d’analyse et de création de rapports.

  • Power BI

    • Azure Databricks, intégré à Power BI, permet un traitement et une visualisation transparents des données. Pour plus d’informations, consultez Connecter Power BI à Azure Databricks.

    • En mettant en miroir le catalogue Azure Databricks Unity dans Fabric, vous pouvez accéder aux données gérées par le catalogue Azure Databricks Unity directement à partir de la charge de travail Fabric. Pour plus d’informations, consultez mise en miroir du catalogue Azure Databricks Unity.

    • Créez un raccourci à partir de Data Lake Storage avec Delta Lake dans un Microsoft Fabric One Lake. Pour plus d’informations, consultez Intégrer databricks Unity Catalog à OneLake. Vous pouvez interroger ces données à partir de Power BI à l’aide du mode Direct Lake sans copier de données dans le service Power BI. Pour plus d’informations, consultez direct Lake Mode.

Détails du scénario

Les petites et moyennes entreprises qui ont un environnement Azure Databricks existant, et éventuellement, une architecture lakehouse, peuvent tirer parti de ce modèle. Ils utilisent actuellement un outil d’extraction, de transformation, de chargement Azure comme Azure Data Factory et de servir des rapports dans Power BI. Toutefois, ils peuvent également avoir plusieurs sources de données qui utilisent différents formats de données propriétaires sur le même lac de données, ce qui entraîne une duplication des données et des préoccupations concernant le verrouillage du fournisseur. Cette situation peut compliquer la gestion des données et augmenter la dépendance vis-à-vis des fournisseurs spécifiques. Ils peuvent également nécessiter des up-to-date et quasiment en temps réel pour la prise de décision et être intéressés par l’adoption d’outils IA dans leur environnement.

Microsoft Fabric est une fondation SaaS ouverte, unifiée et régie que vous pouvez utiliser pour :

  • Utilisez OneLake pour stocker, gérer et analyser des données dans un emplacement unique sans souci de verrouillage du fournisseur.

  • Innover plus rapidement avec les intégrations aux applications Microsoft 365.

  • Obtenez des insights rapides avec les avantages du mode lac direct Power BI.

  • Bénéficiez de Copilots dans chaque expérience Microsoft Fabric.

  • Accélérez l’analyse en développant des modèles IA sur une base unique.

  • Conservez les données en place sans déplacement, ce qui réduit le temps nécessaire aux scientifiques des données pour fournir de la valeur.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteurs principaux :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes