Redigera

Dela via


Modern dataplattform för små och medelstora företag som använder Microsoft Fabric och Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

Lösningsidéer

I den här artikeln beskrivs en lösningsidé. Molnarkitekten kan använda den här vägledningen för att visualisera huvudkomponenterna för en typisk implementering av den här arkitekturen. Använd den här artikeln som utgångspunkt för att utforma en välkonstruerad lösning som överensstämmer med arbetsbelastningens specifika krav.

Den här artikeln beskriver hur små och medelstora företag kan kombinera befintliga investeringar i Azure Databricks med en fullständigt hanterad saaS-dataplattform (programvara som en tjänst), till exempel Microsoft Fabric. SaaS-dataplattformar är dataanalyslösningar från slutpunkt till slutpunkt som enkelt kan integreras med verktyg som Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 och andra Microsoft-tekniker.

Förenklad arkitektur

diagram som visar en förenklad arkitektur för små och medelstora företag.

Ladda ned en Visio-fil av den här arkitekturen.

Samverkan mellan Azure Databricks och Microsoft Fabric ger en robust lösning som minimerar datafragmentering samtidigt som analysfunktionerna förbättras.

Microsoft Fabric tillhandahåller en öppen och styrd datasjö, kallad OneLake, som den underliggande SaaS-lagringen. OneLake använder Delta Parquet-formatet, vilket är samma format som Azure Databricks använder. För att komma åt dina Azure Databricks-data från OneLake kan du använda OneLake-genvägar i Fabric eller spegla Azure Databricks Unity Catalog i Fabric. Med den här integreringen kan du utöka dina Azure Databricks-analyssystem med generativ AI ovanpå OneLake.

Du kan också använda direct lake-läget i Power BI på dina Azure Databricks-data i OneLake. Direct Lake-läget förenklar serveringsskiktet och förbättrar rapportprestandan. OneLake stöder API:er för Azure Data Lake Storage och lagrar alla tabelldata i Delta Parquet-format.

Därför kan Azure Databricks-notebook-filer använda OneLake-slutpunkter för att komma åt lagrade data. Upplevelsen är densamma som att komma åt data via ett Microsoft Fabric-lager. Med den här integreringen kan du använda Fabric eller Azure Databricks utan att omforma dina data.

Arkitektur

diagram som visar en SMB-arkitektur.

Ladda ned en Visio-fil av den här arkitekturen.

Dataflöde

  1. Azure Data Factory: Använd befintliga Azure Data Factory-pipelines för att mata in strukturerade och ostrukturerade data från källsystem och landa dem i den befintliga datasjön.

  2. Microsoft Dynamics 365: Du kan använda Microsoft Dynamics 365-datakällor för att skapa centraliserade BI-instrumentpaneler på förhöjda datamängder med hjälp av Azure Synapse Link eller Microsoft Fabric Link. Ta tillbaka de sammansvetsade, bearbetade data till Microsoft Dynamics 365 och Power BI för ytterligare analys.

  3. Datainmatning för direktuppspelning: Strömmande data kan matas in via Azure Event Hubs eller Azure IoT Hubs, beroende på vilka protokoll som används för att skicka dessa meddelanden.

  4. Kall sökväg: Du kan överföra strömmande data till den centraliserade datasjön för ytterligare analys, lagring och rapportering med hjälp av Azure Databricks. Dessa data kan sedan förenas med andra datakällor för batchanalys.

  5. snabbsökväg: Strömmande data kan analyseras i realtid och realtidsinstrumentpaneler kan skapas via Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks: De befintliga Azure Databricks Notebook-filerna kan sedan användas för att utföra datarensning, enande och analyser som vanligt. Överväg att använda medallion-arkitektur som:

    • Bronze, som innehåller rådata.

    • Silver, som innehåller rensade, filtrerade data.

    • Gold, som lagrar aggregerade data som är användbara för affärsanalys.

  7. Gyllene data eller ett informationslager: För gyllene data eller ett informationslager fortsätter du att använda Azure Databricks SQL eller skapar en spegling av Azure Databricks Unity Catalog i Microsoft Fabric. Skapa enkelt instrumentpaneler baserade på serverlös analys av data i Fabric Lakehouses utan någon konfiguration som krävs med hjälp av Power BI-semantiska modeller som skapas automatiskt för alla Fabric Lakehouses. Fabric Data Warehouse kan också användas som det gyllene lagret om analyskraven kräver snabbare beräkning.

Verktyg som används för styrning, samarbete, säkerhet, prestanda och kostnadsövervakning är:

  • Identifiera och styra

    • Microsoft Purview tillhandahåller dataidentifieringstjänster, klassificering av känsliga data och styrningsinsikter i dataegendomen.

    • Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks-arbetsytor.

  • Azure DevOps tillhandahåller kontinuerlig integrering och kontinuerlig distribution och andra funktioner för integrerad versionskontroll.

  • Azure Key Vault hanterar hemligheter, nycklar och certifikat.

  • Microsoft Entra ID tillhandahåller enkel inloggning för Azure Databricks-användare. Azure Databricks stöder automatiserad användaretablering med Microsoft Entra-ID för att:

    • Skapa nya användare.

    • Tilldela varje användare en åtkomstnivå.

    • Ta bort användare och neka dem åtkomst.

  • Azure Monitor samlar in och analyserar Azure-resurstelemetri. Den här tjänsten maximerar prestanda och tillförlitlighet genom att proaktivt identifiera problem.

  • Microsoft Cost Management tillhandahåller finansiella styrningstjänster för Azure-arbetsbelastningar.

Komponenter

  • Data Lake Storage är en skalbar datalagringstjänst som är utformad för strukturerade och ostrukturerade data. I den här arkitekturen fungerar Data Lake Storage som den underliggande infrastrukturen för Delta Lake. Det är det primära lagringslagret för rådata och bearbetade data, vilket möjliggör effektiv datainmatning, lagring och hämtning för analys- och maskininlärningsarbetsbelastningar.

  • Azure Data Factory är en molnbaserad dataintegreringstjänst som samordnar och automatiserar dataflytt och transformering. Azure Data Factory används för att skapa, schemalägga och samordna datapipelines som flyttar och transformerar data mellan olika datalager och tjänster. Det hjälper till att säkerställa sömlöst dataflöde och integrering.

  • Event Hubs är en datainmatningstjänst i realtid som kan bearbeta miljontals händelser per sekund från valfri källa. I den här arkitekturen samlar Event Hubs in och strömmar stora mängder data från olika källor för att möjliggöra realtidsanalys och händelsedriven bearbetning.

  • Azure IoT Hub är en hanterad tjänst som förbättrar säkerhet och tillförlitlig kommunikation mellan IoT-enheter och molnet. Azure IoT Hub underlättar inmatning, bearbetning och analys av telemetridata från IoT-enheter för att ge insikter i realtid och möjliggöra fjärrövervakning.

  • Microsoft Dataverse är en skalbar dataplattform som organisationer kan använda för att lagra och hantera data som företagsprogram använder på ett säkert sätt. I den här arkitekturen refereras den som en potentiell datakälla.

    • Azure Synapse Link ansluter Dynamics-program med antingen Azure Synapse Analytics eller Data Lake Storage. I den här arkitekturen används den för att kopiera data nästan i realtid från Dataverse till Data Lake Storage.

    • Microsoft Fabric Link ansluter Dynamics-program till Microsoft Fabric. I den här arkitekturen används den för att replikera data från Dataverse till Microsoft Fabric nästan i realtid.

  • Azure Databricks är en Apache Spark-baserad analysplattform. Azure Databricks används för bearbetning av stordata, maskininlärning och datateknik. Den här plattformen tillhandahåller en samarbetsarbetsyta för dataforskare och tekniker.

    • Delta Lake är ett lagringslager med öppen källkod som ger ACID-transaktioner till Apache Spark och stordataarbetsbelastningar. Delta Lake används för att tillhandahålla den här funktionen till datasjölagringen.

    • Azure Databricks SQL är en SQL-baserad analystjänst som gör det möjligt för användare att köra SQL-frågor på data som lagras i Azure Databricks. I den här arkitekturen tillhandahåller Azure Databricks SQL ett kraftfullt SQL-gränssnitt för att fråga och analysera data, vilket möjliggör interaktiv och ad hoc-analys.

    • AI och Machine Learning omfatta en rad tekniker och tjänster som möjliggör utveckling, distribution och hantering av maskininlärningsmodeller. AI- och Machine Learning-tjänster används för att skapa, träna och distribuera förutsägelsemodeller. Med den här funktionen kan du fatta datadrivna beslut.

    • Unity Catalog är en datastyrningslösning som tillhandahåller centraliserad åtkomstkontroll, granskning, ursprung och dataidentifiering i Databricks-arbetsytor. Unity Catalog hjälper till att säkerställa datastyrning och säkerhet genom att tillhandahålla detaljerade åtkomstkontroller, granskning och spårning av data härkomst.

  • Medallion lakehouse-arkitektur är ett dataarkitekturmönster som organiserar data i brons-, silver- och guldlager för effektiv databearbetning och analys. Det här arkitekturmönstret implementeras här med hjälp av Data Lake Storage, Delta Lake och Azure Databricks, som möjliggör skalbar och effektiv databearbetning och analys.

  • Microsoft Fabric är en omfattande dataplattform som integrerar olika datatjänster och verktyg för att ge en sömlös datahanterings- och analysupplevelse. Microsoft Fabric ansluter och integrerar data från flera källor, vilket möjliggör omfattande dataanalys och insikter i hela organisationen.

    • Real-Time Intelligence är en databehandlingsfunktion som gör det möjligt för organisationer att mata in, bearbeta och analysera data i realtid. Real-Time Intelligence bearbetar strömmande data från olika källor. Det ger insikter i realtid och möjliggör automatiserade åtgärder baserat på datamönster.

    • OneLake-genvägar skapa en länk på plats mellan OneLake och en annan datakälla. OneLake-genvägar används för att effektivisera dataåtkomst och hantering, vilket ger en enhetlig vy över data i hela organisationen.

  • Power BI är en tjänst för affärsanalys som tillhandahåller interaktiva visualiseringar och business intelligence-funktioner. Den har ett enkelt gränssnitt för användare att skapa egna interaktiva rapporter och instrumentpaneler. De här verktygen möjliggör datavisualisering och insikter för företagsanvändare.

  • Microsoft Purview är en enhetlig datastyrningstjänst som hjälper organisationer att hantera och styra sina data mellan olika källor. Microsoft Purview tillhandahåller funktioner för datakatalogering, ursprungsspårning och datastyrning. De här funktionerna hjälper till att säkerställa dataefterlevnad och säkerhet i hela organisationen.

  • Microsoft Entra ID är en molnbaserad lösning för identitets- och åtkomsthantering som säkerställer säker inloggning och åtkomst till resurser som Microsoft 365, Azure och andra SaaS-program. I den här arkitekturen tillhandahåller Microsoft Entra-ID säker identitets- och åtkomsthantering för Azure-resurser. Den här funktionen möjliggör säker inloggning, hanterar användaridentiteter och säkerställer att åtkomst till data och resurser är auktoriserad.

  • Microsoft Cost Management är en uppsättning FinOps-verktyg som organisationer kan använda för att analysera, övervaka och optimera Microsoft Cloud-kostnader. De här verktygen ger ekonomisk styrning över Azure-resurser i den här arkitekturen.

  • Key Vault är en molntjänst som lagrar och hanterar hemligheter, till exempel API-nycklar, lösenord, certifikat och kryptografiska nycklar. Med den här tjänsten kan användare och program komma åt dessa hemligheter på ett säkert sätt. När du lagrar dina nycklar och hemligheter i Key Vault kan du hantera dem på en enda plats. I den här arkitekturen kan Azure Databricks hämta hemligheter från Key Vault för att autentisera och komma åt Data Lake Storage. Den här processen hjälper till att säkerställa säker och sömlös integrering mellan dessa tjänster.

  • Azure Monitor är en omfattande övervakningstjänst som ger full stackobservabilitet för program, infrastruktur och nätverk. Med Azure Monitor kan användare samla in, analysera och agera på telemetridata från sina Azure- och lokala miljöer för att proaktivt identifiera problem och maximera prestanda och tillförlitlighet.

  • Azure DevOps är en uppsättning utvecklingsverktyg som stöder en samarbetskultur och effektiviserade processer. De här verktygen gör det möjligt för utvecklare, projektledare och deltagare att utveckla programvara mer effektivt. Azure DevOps innehåller integrerade funktioner som Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans och Azure Artifacts. Du kan komma åt dessa funktioner via en webbläsare eller en integrerad utvecklingsmiljöklient.

  • GitHub är en molnbaserad Värdtjänst för Git-lagringsplatser som förenklar versionskontroll och samarbete för utvecklare. Det gör att individer och team kan lagra och hantera sin kod, spåra ändringar och samarbeta i projekt med hjälp av Git. Det användarvänliga GitHub-gränssnittet gör Git tillgängligt för kodare på alla kunskapsnivåer. Du kan använda Azure DevOps och GitHub tillsammans för att implementera DevOps-metoder. Dessa metoder tillämpar automatisering och efterlevnad i dina pipelines för utveckling och distribution av arbetsbelastningar för Azure Data Factory, Azure Databricks och Microsoft Fabric.

Alternativ

Tjänstalternativ i den här arkitekturen

  • Batch-inmatning

  • Microsoft Dynamics 365-inmatning

  • Datainmatning för direktuppspelning

    • Beslutet mellan Azure IoT och Event Hubs beror på källan till strömmande data, om kloning och dubbelriktad kommunikation med rapporteringsenheterna behövs och vilka protokoll som krävs. Mer information finns i Compare IoT Hub and Event Hubs.
  • Lakehouse

    • Microsoft Fabric Lakehouse är en enhetlig dataarkitekturplattform för hantering och analys av strukturerade och ostrukturerade data i ett öppet format som främst använder Delta Parquet-filer. Den stöder två lagringstyper. Dessa lagringstyper är hanterade tabeller som CSV, Parquet eller Delta och ohanterade filer. Hanterade tabeller identifieras automatiskt. Ohanterade filer kräver explicit skapande av tabeller. Plattformen möjliggör datatransformeringar via Spark- eller SQL-slutpunkter och integreras sömlöst med andra Microsoft Fabric-komponenter. Den här sömlösa integreringen tillåter datadelning utan duplicering. Det här konceptet överensstämmer med den vanliga medaljongarkitekturen som används i analytiska arbetsbelastningar. Mer information finns i Lakehouse i Microsoft Fabric.
  • realtidsanalys

    • Azure Databricks

      • Om du har en befintlig Azure Databricks-lösning kanske du vill fortsätta att använda Structured Streaming för realtidsanalys. Mer information finns i Streaming on Databricks.
    • Microsoft Fabric

      • Om du tidigare har använt andra Azure-tjänster för realtidsanalys eller inte har någon befintlig realtidsanalyslösning kan du läsa Fabric Realtidsinformation jämfört med Azure Streaming Solutions.

      • Strukturerad strömning i Microsoft Fabric använder Spark Structured Streaming för att bearbeta och mata in livedataströmmar som tabeller som läggs till kontinuerligt. Strukturerad strömning stöder olika filkällor, till exempel CSV, JSON, ORC, Parquet och meddelandetjänster som Kafka och Event Hubs. Den här metoden säkerställer skalbar och feltolerant dataströmbearbetning, vilket optimerar produktionsmiljöer med högt dataflöde. Mer information finns i Microsoft Fabric Spark Structured Streaming.

  • Data engineering

  • informationslager eller guldlager

    • Du kan använda antingen Microsoft Fabric eller Azure Databricks för att skapa ett SQL-baserat lager eller ett guldlager. En beslutsguide om hur du väljer ett informationslager eller en guldlagerlagringslösning i Microsoft Fabric finns i Beslutsguide för Microsoft Fabric: välj ett datalager. Mer information om SQL-lagertyper i Azure Databricks finns i SQL-lagertyper.
  • Data science

    • Använd antingen Microsoft Fabric eller Azure Databricks för datavetenskapsfunktioner. Mer information om Microsoft Fabric Data Science-erbjudandet finns i Vad är datavetenskap i Microsoft Fabric?. Mer information om Azure Databricks-erbjudandet finns i AI och maskininlärning på Databricks.

    • Microsoft Fabric Data Science skiljer sig från Machine Learning. Machine Learning är en omfattande lösning för att hantera arbetsflöden och distribuera maskininlärningsmodeller. Microsoft Fabric Data Science är skräddarsytt för ett analys- och rapporteringsscenario.

  • Power BI-

    • Azure Databricks, integrerat med Power BI, möjliggör sömlös databearbetning och visualisering. Mer information finns i Ansluta Power BI till Azure Databricks.

    • Genom att spegla Azure Databricks Unity Catalog i Fabric kan du komma åt data som hanteras av Azure Databricks Unity Catalog direkt från Fabric-arbetsbelastningen. Mer information finns i Mirroring Azure Databricks Unity Catalog.

    • Skapa en genväg från Data Lake Storage med Delta Lake till en Microsoft Fabric One Lake. Mer information finns i Integrera Databricks Unity Catalog med OneLake. Du kan köra frågor mot dessa data från Power BI med hjälp av Direct Lake-läge utan att kopiera data till Power BI-tjänsten. Mer information finns i Direct Lake Mode.

Scenarioinformation

Små och medelstora företag som har en befintlig Azure Databricks-miljö, och som du kan välja, en lakehouse-arkitektur, kan dra nytta av det här mönstret. De använder för närvarande ett Azure-verktyg för att extrahera, transformera, läsa in, till exempel Azure Data Factory och hantera rapporter i Power BI. De kan dock också ha flera datakällor som använder olika proprietära dataformat på samma datasjö, vilket leder till dataduplicering och problem med leverantörslåsning. Den här situationen kan komplicera datahanteringen och öka beroendet av specifika leverantörer. De kan också kräva up-to- datum- och nästan realtidsrapportering för beslutsfattande och vara intresserade av att använda AI-verktyg i sin miljö.

Microsoft Fabric är en öppen, enhetlig och styrd SaaS-grund som du kan använda för att:

  • Använd OneLake för att lagra, hantera och analysera data på en enda plats utan problem med leverantörslåsning.

  • Förnya snabbare med integreringar till Microsoft 365-appar.

  • Få snabba insikter med fördelarna med Power BI Direct Lake-läget.

  • Dra nytta av Copilots i varje Microsoft Fabric-upplevelse.

  • Påskynda analysen genom att utveckla AI-modeller på en enda grund.

  • Håll data på plats utan förflyttning, vilket minskar den tid som dataexperter behöver för att ge värde.

Bidragsgivare

Den här artikeln underhålls av Microsoft. Den skrevs ursprungligen av följande deltagare.

Huvudförfattare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg