Bewerken

Delen via


Modern gegevensplatform voor kleine en middelgrote bedrijven met Behulp van Microsoft Fabric en Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

ideeën voor oplossing

In dit artikel wordt een oplossingsidee beschreven. Uw cloudarchitect kan deze richtlijnen gebruiken om de belangrijkste onderdelen te visualiseren voor een typische implementatie van deze architectuur. Gebruik dit artikel als uitgangspunt om een goed ontworpen oplossing te ontwerpen die overeenkomt met de specifieke vereisten van uw workload.

In dit artikel wordt beschreven hoe kleine en middelgrote bedrijven (MKB's) bestaande investeringen in Azure Databricks kunnen combineren met een volledig beheerd SaaS-gegevensplatform (Software as a Service), zoals Microsoft Fabric. SaaS-gegevensplatforms zijn end-to-end oplossingen voor gegevensanalyse die eenvoudig kunnen worden geïntegreerd met hulpprogramma's zoals Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 en andere Microsoft-technologieën.

Vereenvoudigde architectuur

Diagram met een vereenvoudigde architectuur voor kleine en middelgrote bedrijven.

Download een Visio-bestand van deze architectuur.

De interoperabiliteit tussen Azure Databricks en Microsoft Fabric biedt een robuuste oplossing waarmee gegevensfragmentatie wordt geminimaliseerd en analytische mogelijkheden worden verbeterd.

Microsoft Fabric biedt een open en beheerde Data Lake, OneLake genoemd, als de onderliggende SaaS-opslag. OneLake maakt gebruik van de Delta Parquet-indeling. Dit is dezelfde indeling die Azure Databricks gebruikt. Als u toegang wilt krijgen tot uw Azure Databricks-gegevens vanuit OneLake, kunt u OneLake-snelkoppelingen in Fabric gebruiken of de Azure Databricks Unity Catalog spiegelen in Fabric. Met deze integratie kunt u uw Azure Databricks-analysesystemen uitbreiden met generatieve AI bovenop OneLake.

U kunt ook de direct lake-modus in Power BI gebruiken op uw Azure Databricks-gegevens in OneLake. De Direct Lake-modus vereenvoudigt de ondersteunende laag en verbetert de rapportprestaties. OneLake ondersteunt API's voor Azure Data Lake Storage en slaat alle tabelgegevens op in Delta Parquet-indeling.

Als gevolg hiervan kunnen Azure Databricks-notebooks OneLake-eindpunten gebruiken om toegang te krijgen tot de opgeslagen gegevens. De ervaring is hetzelfde als het openen van de gegevens via een Microsoft Fabric-magazijn. Met deze integratie kunt u Fabric of Azure Databricks gebruiken zonder uw gegevens opnieuw te vormgeven.

Architectuur

diagram met een SMB-architectuur.

Download een Visio-bestand van deze architectuur.

Gegevensstroom

  1. Azure Data Factory: Bestaande Azure Data Factory-pijplijnen gebruiken om gestructureerde en ongestructureerde gegevens van bronsystemen op te nemen en in de bestaande data lake te landen.

  2. Microsoft Dynamics 365: U kunt Microsoft Dynamics 365-gegevensbronnen gebruiken om gecentraliseerde BI-dashboards te bouwen op uitgebreide gegevenssets met behulp van Azure Synapse Link of Microsoft Fabric Link. Breng de samengevoegde, verwerkte gegevens terug naar Microsoft Dynamics 365 en Power BI voor verdere analyse.

  3. Opname van streaminggegevens: streaminggegevens kunnen worden opgenomen via Azure Event Hubs of Azure IoT Hubs, afhankelijk van de protocollen die worden gebruikt om deze berichten te verzenden.

  4. koud pad: U kunt de streaminggegevens overbrengen naar de gecentraliseerde data lake voor verdere analyse, opslag en rapportage met behulp van Azure Databricks. Deze gegevens kunnen vervolgens worden gecombineerd met andere gegevensbronnen voor batchanalyse.

  5. dynamisch pad: streaminggegevens kunnen in realtime worden geanalyseerd en realtime dashboards kunnen worden gemaakt via Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks: De bestaande Azure Databricks Notebooks kunnen vervolgens worden gebruikt om gegevens op te schonen, te combineren en te analyseren zoals gebruikelijk. Overweeg het gebruik van medalsight-architectuur, zoals:

    • Brons, dat onbewerkte gegevens bevat.

    • Zilver, dat opgeschoonde, gefilterde gegevens bevat.

    • Gold, waarin geaggregeerde gegevens worden opgeslagen die nuttig zijn voor zakelijke analyses.

  7. Golden Data of een datawarehouse: Voor de gouden gegevens of een datawarehouse blijft u Azure Databricks SQL gebruiken of een mirroring maken van de Azure Databricks Unity Catalog in Microsoft Fabric. Maak eenvoudig dashboards op basis van serverloze analyse van gegevens in Fabric Lakehouses zonder dat hiervoor een installatie is vereist met behulp van de semantische Power BI-modellen die automatisch worden gemaakt voor alle Fabric Lakehouses. Fabric Data Warehouse kan ook worden gebruikt als de gouden laag als analytische vereisten snellere rekenkracht vereisen.

Hulpprogramma's die worden gebruikt voor governance, samenwerking, beveiliging, prestaties en kostenbewaking zijn onder andere:

  • Ontdekken en beheren

    • Microsoft Purview biedt services voor gegevensdetectie, classificatie van gevoelige gegevens en governance-inzichten in de gegevensomgeving.

    • Unity Catalog biedt gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie in Azure Databricks-werkruimten.

  • Azure DevOps biedt continue integratie en continue implementatie en andere geïntegreerde functies voor versiebeheer.

  • Azure Key Vault beheert geheimen, sleutels en certificaten.

  • Microsoft Entra ID biedt eenmalige aanmelding voor Azure Databricks-gebruikers. Azure Databricks biedt ondersteuning voor geautomatiseerde inrichting van gebruikers met Microsoft Entra ID voor:

    • Nieuwe gebruikers maken.

    • Wijs elke gebruiker een toegangsniveau toe.

    • Gebruikers verwijderen en toegang weigeren.

  • Azure Monitor verzamelt en analyseert telemetriegegevens van Azure-resources. Deze service maximaliseert de prestaties en betrouwbaarheid door proactief problemen te identificeren.

  • Microsoft Cost Management biedt financiële governanceservices voor Azure-workloads.

Onderdelen

  • Data Lake Storage is een schaalbare gegevensopslagservice die is ontworpen voor gestructureerde en ongestructureerde gegevens. In deze architectuur fungeert Data Lake Storage als de onderliggende infrastructuur voor het Delta Lake. Het is de primaire opslaglaag voor onbewerkte en verwerkte gegevens, waarmee efficiënte gegevensopname, opslag en ophaalbewerking mogelijk is voor analyse- en machine learning-workloads.

  • Azure Data Factory- is een cloudservice voor gegevensintegratie waarmee gegevensverplaatsing en transformatie worden georganiseerd en geautomatiseerd. Azure Data Factory wordt gebruikt voor het maken, plannen en organiseren van gegevenspijplijnen die gegevens verplaatsen en transformeren in verschillende gegevensarchieven en -services. Het zorgt voor een naadloze gegevensstroom en integratie.

  • Event Hubs is een realtime gegevensopnameservice die miljoenen gebeurtenissen per seconde kan verwerken vanuit elke bron. In deze architectuur legt Event Hubs grote hoeveelheden gegevens uit verschillende bronnen vast en streamt deze om realtime analyse en gebeurtenisgestuurde verwerking mogelijk te maken.

  • Azure IoT Hub is een beheerde service die de beveiliging en betrouwbare communicatie tussen IoT-apparaten en de cloud verbetert. Azure IoT Hub vereenvoudigt de opname, verwerking en analyse van telemetriegegevens van IoT-apparaten om realtime inzichten te bieden en externe bewaking mogelijk te maken.

  • Microsoft Dataverse is een schaalbaar gegevensplatform dat organisaties kunnen gebruiken om veilig gegevens op te slaan en te beheren die zakelijke toepassingen gebruiken. In deze architectuur wordt ernaar verwezen als een mogelijke gegevensbron.

    • Azure Synapse Link dynamics-toepassingen verbindt met Azure Synapse Analytics of Data Lake Storage. In deze architectuur wordt het gebruikt om gegevens in bijna realtime te kopiëren van Dataverse naar Data Lake Storage.

    • Microsoft Fabric Link Dynamics-toepassingen verbindt met Microsoft Fabric. In deze architectuur wordt het gebruikt om gegevens van Dataverse in bijna realtime te repliceren naar Microsoft Fabric.

  • Azure Databricks- is een op Apache Spark gebaseerd analyseplatform. Azure Databricks wordt gebruikt voor big data-verwerking, machine learning en data engineering-taken. Dit platform biedt een werkruimte voor samenwerking voor gegevenswetenschappers en technici.

    • Delta Lake is een opensource-opslaglaag die ACID-transacties naar Apache Spark- en big data-workloads brengt. Delta Lake wordt gebruikt om deze functionaliteit te bieden aan de Data Lake Storage.

    • Azure Databricks SQL- is een analyseservice op basis van SQL waarmee gebruikers SQL-query's kunnen uitvoeren op gegevens die zijn opgeslagen in Azure Databricks. In deze architectuur biedt Azure Databricks SQL een krachtige SQL-interface voor het opvragen en analyseren van gegevens, waardoor interactieve en ad-hocanalyse mogelijk is.

    • AI- en Machine Learning- een scala aan technologieën en services omvat die de ontwikkeling, implementatie en het beheer van machine learning-modellen mogelijk maken. AI- en Machine Learning-services worden gebruikt voor het bouwen, trainen en implementeren van voorspellende modellen. Met deze mogelijkheid kunt u gegevensgestuurde besluitvorming mogelijk maken.

    • Unity Catalog is een oplossing voor gegevensbeheer die gecentraliseerd toegangsbeheer, controle, herkomst en mogelijkheden voor gegevensdetectie biedt in Databricks-werkruimten. Unity Catalog zorgt voor gegevensbeheer en beveiliging door verfijnde toegangsbeheer, controle en tracering van gegevensherkomsten te bieden.

  • Medal organize lakehouse-architectuur is een gegevensarchitectuurpatroon dat gegevens in brons-, zilver- en gouden lagen ordent voor efficiënte gegevensverwerking en analyse. Dit architectuurpatroon wordt hier geïmplementeerd met behulp van Data Lake Storage, Delta Lake en Azure Databricks, waardoor schaalbare en efficiënte gegevensverwerking en analyses mogelijk zijn.

  • Microsoft Fabric is een uitgebreid gegevensplatform dat verschillende gegevensservices en hulpprogramma's integreert om een naadloze ervaring voor gegevensbeheer en analyse te bieden. Microsoft Fabric verbindt en integreert gegevens uit meerdere bronnen, waardoor uitgebreide gegevensanalyse en inzichten in de hele organisatie mogelijk zijn.

    • Real-Time Intelligence is een mogelijkheid voor gegevensverwerking waarmee organisaties in realtime gegevens kunnen opnemen, verwerken en analyseren. Real-Time Intelligence verwerkt streaminggegevens uit verschillende bronnen. Het biedt realtime inzichten en maakt geautomatiseerde acties mogelijk op basis van gegevenspatronen.

    • OneLake-snelkoppelingen een in-place koppeling maken tussen OneLake en een andere gegevensbron. OneLake-snelkoppelingen worden gebruikt om gegevenstoegang en -beheer te stroomlijnen, wat een uniforme weergave van gegevens in de hele organisatie biedt.

  • Power BI- is een zakelijke analyseservice die interactieve visualisaties en mogelijkheden voor bedrijfsinformatie biedt. Het heeft een eenvoudige interface voor gebruikers om hun eigen interactieve rapporten en dashboards te maken. Met deze hulpprogramma's kunt u gegevensvisualisatie en inzichten voor zakelijke gebruikers inschakelen.

  • Microsoft Purview is een geïntegreerde service voor gegevensbeheer waarmee organisaties hun gegevens in verschillende bronnen kunnen beheren en beheren. Microsoft Purview biedt mogelijkheden voor gegevenscatalogus, tracering van herkomst en gegevensbeheer. Deze functies zorgen ervoor dat gegevenscompatibiliteit en -beveiliging in de hele organisatie worden nageleefd.

  • Microsoft Entra ID is een cloudoplossing voor identiteits- en toegangsbeheer waarmee veilige aanmeldingen en toegang tot resources zoals Microsoft 365, Azure en andere SaaS-toepassingen worden gegarandeerd. In deze architectuur biedt Microsoft Entra ID beveiligd identiteits- en toegangsbeheer voor Azure-resources. Met deze functie kunt u beveiligde aanmeldingen inschakelen, gebruikersidentiteiten beheren en ervoor zorgen dat toegang tot gegevens en resources is geautoriseerd.

  • Microsoft Cost Management- is een suite met FinOps-hulpprogramma's die organisaties kunnen gebruiken om Microsoft Cloud-kosten te analyseren, bewaken en optimaliseren. Deze hulpprogramma's bieden financieel beheer over Azure-resources in deze architectuur.

  • Key Vault- is een cloudservice waarmee geheimen, zoals API-sleutels, wachtwoorden, certificaten en cryptografische sleutels, worden opgeslagen en beheerd. Met deze service kunnen gebruikers en toepassingen veilig toegang krijgen tot deze geheimen. Wanneer u uw sleutels en geheimen opslaat in Key Vault, kunt u ze op één plaats beheren. In deze architectuur kan Azure Databricks geheimen ophalen uit Key Vault om Data Lake Storage te verifiëren en te openen. Dit proces zorgt voor een veilige en naadloze integratie tussen deze services.

  • Azure Monitor- is een uitgebreide bewakingsservice die volledige stack waarneembaarheid biedt voor toepassingen, infrastructuur en netwerken. Met Azure Monitor kunnen gebruikers telemetriegegevens verzamelen, analyseren en erop reageren vanuit hun Azure- en on-premises omgevingen om proactief problemen te identificeren en de prestaties en betrouwbaarheid te maximaliseren.

  • Azure DevOps- is een set ontwikkelhulpprogramma's die ondersteuning bieden voor een samenwerkingscultuur en gestroomlijnde processen. Met deze hulpprogramma's kunnen ontwikkelaars, projectmanagers en inzenders efficiënter software ontwikkelen. Azure DevOps biedt geïntegreerde functies zoals Azure Boards, Azure-opslagplaatsen, Azure Pipelines, Azure Test Plans en Azure Artifacts. U kunt deze functies openen via een webbrowser of een geïntegreerde ontwikkelomgevingsclient.

  • GitHub is een cloudgebaseerde Git-opslagplaats die de versiebeheer en samenwerking voor ontwikkelaars vereenvoudigt. Hiermee kunnen personen en teams hun code opslaan en beheren, wijzigingen bijhouden en samenwerken aan projecten met behulp van Git. De gebruiksvriendelijke GitHub-interface maakt Git toegankelijk voor coders van alle vaardigheidsniveaus. U kunt Azure DevOps en GitHub samen gebruiken om DevOps-procedures te implementeren. Met deze procedures worden automatisering en naleving afgedwongen in uw workloadontwikkelings- en implementatiepijplijnen voor Azure Data Factory, Azure Databricks en Microsoft Fabric.

Alternatieven

Servicealternatieven binnen deze architectuur

  • Batch-opname

  • Microsoft Dynamics 365-opname

  • opname van streaminggegevens

    • De beslissing tussen Azure IoT en Event Hubs is afhankelijk van de bron van de streaminggegevens, of klonen en bidirectionele communicatie met de rapportageapparaten nodig is, en de vereiste protocollen. Zie IoT Hub en Event Hubs vergelijkenvoor meer informatie.
  • Lakehouse-

    • Microsoft Fabric Lakehouse is een geïntegreerd platform voor gegevensarchitectuur voor het beheren en analyseren van gestructureerde en ongestructureerde gegevens in een open indeling die voornamelijk gebruikmaakt van Delta Parquet-bestanden. Het ondersteunt twee opslagtypen. Deze opslagtypen zijn beheerde tabellen zoals CSV-, Parquet- of Delta- en onbeheerde bestanden. Beheerde tabellen worden automatisch herkend. Voor niet-beheerde bestanden is expliciete tabel maken vereist. Het platform maakt gegevenstransformaties mogelijk via Spark- of SQL-eindpunten en kan naadloos worden geïntegreerd met andere Microsoft Fabric-onderdelen. Dankzij deze naadloze integratie kunnen gegevens zonder duplicatie worden gedeeld. Dit concept is afgestemd op de algemene medalsight-architectuur die wordt gebruikt in analyseworkloads. Zie Lakehouse in Microsoft Fabricvoor meer informatie.
  • realtime analyse

    • Azure Databricks-

      • Als u een bestaande Azure Databricks-oplossing hebt, kunt u structured streaming blijven gebruiken voor realtime analyses. Zie Streaming op Databricksvoor meer informatie.
    • Microsoft Fabric-

      • Als u in het verleden andere Azure-services hebt gebruikt voor realtime analyses of geen bestaande realtime analyseoplossing hebt, raadpleegt u Fabric Realtime Intelligence versus Azure Streaming Solutions.

      • Gestructureerde streaming van Microsoft Fabric maakt gebruik van Spark Structured Streaming om live gegevensstromen te verwerken en op te nemen als doorlopend toegevoegde tabellen. Gestructureerde streaming ondersteunt verschillende bestandsbronnen, zoals CSV, JSON, ORC, Parquet en berichtenservices zoals Kafka en Event Hubs. Deze aanpak zorgt voor schaalbare en fouttolerante stroomverwerking, waarmee productieomgevingen met hoge doorvoer worden geoptimaliseerd. Zie Microsoft Fabric Spark Structured Streamingvoor meer informatie.

  • data engineering-

  • datawarehouse of gouden laag

  • Data Science-

    • Gebruik Microsoft Fabric of Azure Databricks voor data science-mogelijkheden. Zie Wat is Data Science in Microsoft Fabric?. Zie AI en machine learning op Databricksvoor meer informatie over de Azure Databricks-aanbieding.

    • Microsoft Fabric Data Science verschilt van Machine Learning. Machine Learning biedt een uitgebreide oplossing voor het beheren van werkstromen en het implementeren van machine learning-modellen. Microsoft Fabric Data Science is afgestemd op een analyse- en rapportagescenario.

  • Power BI-

    • Azure Databricks, geïntegreerd met Power BI, maakt naadloze gegevensverwerking en visualisatie mogelijk. Zie Power BI verbinden met Azure Databricksvoor meer informatie.

    • Door Azure Databricks Unity Catalog in Fabric te spiegelen, hebt u rechtstreeks vanuit de Infrastructuurworkload toegang tot gegevens die worden beheerd door Azure Databricks Unity Catalog. Zie Mirroring Azure Databricks Unity Catalogvoor meer informatie.

    • Maak een snelkoppeling vanuit Data Lake Storage met Delta Lake naar een Microsoft Fabric One Lake. Zie Databricks Unity Catalog integreren met OneLakevoor meer informatie. U kunt deze gegevens opvragen vanuit Power BI met behulp van de Direct Lake-modus zonder gegevens naar de Power BI-service te kopiëren. Zie Direct Lake Modevoor meer informatie.

Scenariodetails

Kleine en middelgrote bedrijven met een bestaande Azure Databricks-omgeving en eventueel een lakehouse-architectuur kunnen profiteren van dit patroon. Ze gebruiken momenteel een Azure-hulpprogramma voor extraheren, transformeren, laden, zoals Azure Data Factory en leveren rapporten in Power BI. Ze kunnen echter ook meerdere gegevensbronnen hebben die gebruikmaken van verschillende eigen gegevensindelingen in dezelfde data lake, wat leidt tot duplicatie van gegevens en zorgen over de vergrendeling van de leverancier. Deze situatie kan het beheer van gegevens bemoeilijken en de afhankelijkheid van specifieke leveranciers vergroten. Ze vereisen mogelijk ook up-to-datum- en bijna realtime rapportage voor besluitvorming en zijn geïnteresseerd in het aannemen van AI-hulpprogramma's in hun omgeving.

Microsoft Fabric is een open, geïntegreerde en beheerde SaaS-basis waarmee u het volgende kunt doen:

  • Gebruik OneLake om gegevens op één locatie op te slaan, te beheren en te analyseren zonder dat u zich zorgen hoeft te maken over de vergrendeling van de leverancier.

  • Sneller innoveren met integraties met Microsoft 365-apps.

  • Krijg snelle inzichten met de voordelen van de direct lake-modus van Power BI.

  • Profiteer van Copilots in elke Microsoft Fabric-ervaring.

  • Versnel de analyse door AI-modellen op één basis te ontwikkelen.

  • Houd gegevens op hun plaats zonder beweging, waardoor gegevenswetenschappers minder tijd nodig hebben om waarde op te geven.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzenders.

Hoofdauteurs:

Meld u aan bij LinkedIn als u niet-openbare LinkedIn-profielen wilt zien.

Volgende stappen