Redigera

Dela via


Modern analysarkitektur med Azure Databricks

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

Lösningsidéer

I den här artikeln beskrivs en lösningsidé. Molnarkitekten kan använda den här vägledningen för att visualisera huvudkomponenterna för en typisk implementering av den här arkitekturen. Använd den här artikeln som utgångspunkt för att utforma en välkonstruerad lösning som överensstämmer med arbetsbelastningens specifika krav.

Den här lösningen beskriver modern dataarkitektur. Azure Databricks utgör kärnan i lösningen. Den här plattformen fungerar sömlöst med andra tjänster, till exempel Azure Data Lake Storage Gen2, Microsoft Fabric och Power BI.

Apache® och Apache Spark™ är antingen registrerade varumärken eller varumärken som tillhör Apache Software Foundation i USA och/eller andra länder. Inget godkännande från Apache Software Foundation underförstås av användningen av dessa märken.

Arkitektur

Arkitekturdiagram som visar hur en modern dataarkitektur samlar in, bearbetar, analyserar och visualiserar data.

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

  1. Azure Databricks matar in rådata från Azure Event Hubs med hjälp av Delta Live Tables.

  2. Fabric Data Factory läser in råa batchdata till Data Lake Storage Gen2.

  3. För datalagring:

    • Data Lake Storage Gen2 innehåller data av alla typer, till exempel strukturerade, ostrukturerade och halvstrukturerade. Den lagrar även batch- och strömmande data.

    • Delta Lake utgör datasjöns kurerade lager. Den lagrar raffinerade data i ett format med öppen källkod.

    • Azure Databricks fungerar bra med en medaljongarkitektur som organiserar data i lager:

      • Brons: Innehåller rådata.
      • Silver: Innehåller rensade, filtrerade data.
      • Guld: Lagrar aggregerade data som är användbara för affärsanalys.
  4. Analysplattformen matar in data från de olika batch- och strömningskällorna. Dataexperter använder dessa data för dessa uppgifter:

    • Förberedelse av data.
    • Datautforskning.
    • Modellförberedelse.
    • Modellträning.

    MLflow hanterar parameter-, mått- och modellspårning i data science-kodkörningar. Kodningsmöjligheterna är flexibla:

    • Koden kan finnas i SQL, Python, R och Scala.
    • Kod kan använda populära bibliotek och ramverk med öppen källkod, till exempel Koalas, Pandas och scikit-learn, som är förinstallerade och optimerade.
    • Utövare kan optimera för prestanda och kostnader med beräkningsalternativ med en nod och flera noder.
  5. Maskininlärningsmodeller är tillgängliga i flera format:

    • Azure Databricks lagrar information om modeller i MLflow Model Registry. Registret gör modeller tillgängliga via batch-, strömnings- och REST-API:er.
    • Lösningen kan också distribuera modeller till Azure Machine Learning-webbtjänster eller Azure Kubernetes Service (AKS).
  6. Tjänster som fungerar med data ansluter till en enda underliggande datakälla för att säkerställa konsekvens. Användare kan till exempel köra SQL-frågor på datasjön med Azure Databricks SQL Warehouses. Den här tjänsten:

    • Tillhandahåller en frågeredigerare och katalog, frågehistorik, grundläggande instrumentpaneler och aviseringar.
    • Använder integrerad säkerhet som innehåller behörigheter på radnivå och kolumnnivå.
    • Använder en fotodriven deltamotor för att påskynda prestandan.
  7. Användare kan spegla gulddatauppsättningar från Databricks Unity Catalog till Infrastrukturresurser. Databricks-spegling i Infrastrukturresurser göra det möjligt för användare att enkelt integrera utan dataflytt eller datareplikering.

  8. Power BI genererar analytiska och historiska rapporter och instrumentpaneler från den enhetliga dataplattformen. Den här tjänsten använder dessa funktioner när du arbetar med Azure Databricks:

    • En inbyggd Azure Databricks-anslutningsapp för visualisering av underliggande data.
    • Optimerade drivrutiner för Java Database Connectivity (JDBC) och Open Database Connectivity (ODBC).
    • Med Databricks-spegling i Fabric kan du använda Direct Lake för att läsa in dina PBI-semantiska modeller för frågor med högre prestanda.
  9. Lösningen använder Unity Catalog och Azure-tjänster för samarbete, prestanda, tillförlitlighet, styrning och säkerhet:

    • Databricks Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks-arbetsytor.

    • Microsoft Purview tillhandahåller dataidentifieringstjänster, klassificering av känsliga data och styrningsinsikter i dataegendomen.

    • Azure DevOps erbjuder kontinuerlig integrering och kontinuerlig distribution (CI/CD) och andra funktioner för integrerad versionskontroll.

    • Azure Key Vault hanterar hemligheter, nycklar och certifikat på ett säkert sätt.

    • Microsoft Entra ID och SCIM-etablering tillhandahåller enkel inloggning (SSO) för Azure Databricks-användare och -grupper. Azure Databricks stöder automatiserad användaretablering med Microsoft Entra-ID för följande uppgifter:

      • Skapa nya användare och grupper.
      • Tilldela varje användare en åtkomstnivå.
      • Ta bort användare och neka dem åtkomst.
    • Azure Monitor samlar in och analyserar Azure-resurstelemetri. Genom att proaktivt identifiera problem maximerar den här tjänsten prestanda och tillförlitlighet.

    • Microsoft Cost Management tillhandahåller finansiella styrningstjänster för Azure-arbetsbelastningar.

Komponenter

Lösningen använder följande komponenter.

Kärnkomponenter

  • Azure Databricks är en dataanalysplattform som använder Spark-kluster för att bearbeta stora dataströmmar. Den rensar och transformerar ostrukturerade data, kombinerar dem med strukturerade data och kan träna och distribuera maskininlärningsmodeller. I den här arkitekturen fungerar Databricks som det centrala verktyget för datainmatning, bearbetning och servering, vilket ger en enhetlig miljö för att hantera hela datalivscykeln.

  • Azure Databricks SQL Warehouse är beräkningsresurser som gör att du kan köra frågor mot och utforska data i Databricks. I den här arkitekturen kan du använda SQL-slutpunkter för att ansluta direkt till dina data från Power BI.

  • Azure Databricks Delta Live Tables är ett deklarativt ramverk för att skapa tillförlitliga, underhållsbara och testbara pipelines för databearbetning. I den här arkitekturen hjälper Delta Live Tables dig att definiera transformeringar som ska utföras på dina data och hantera uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering i Databricks.

  • Microsoft Fabric är en analys- och dataplattform från slutpunkt till slutpunkt som är utformad för företag som behöver en enhetlig lösning. Plattformen erbjuder tjänster som Data Engineering, Data Factory, Data Science, Real-Time Analytics, Data Warehouse och Databaser. I den här arkitekturen speglar vi Unity Catalog-tabeller i Infrastrukturresurser och använder Direct Lake i Power BI för bättre prestanda.

  • Data Factory i Microsoft Fabric ger dig en modern dataintegreringsupplevelse för att mata in, förbereda och transformera data från en omfattande uppsättning datakällor i Fabric. I den här arkitekturen använder vi inbyggda anslutningsappar till flera datakällor för snabb inmatning till ADLS eller OneLake, där Databricks senare hämtar och transformerar batchdata ytterligare.

  • Event Hubs är en fullständigt hanterad plattform för stordataströmning. Som plattform som en tjänst (PaaS) tillhandahåller den funktioner för händelseinmatning. I den här arkitekturen används Event Hubs för strömmande data, som Databricks kan ansluta till och bearbeta med Spark Streaming eller Delta Live Tables.

  • Data Lake Storage Gen2 är en skalbar och säker datasjö för analys med höga prestanda. Den hanterar flera petabyte med data och stöder hundratals gigabit dataflöde. ADLS kan lagra strukturerade, halvstrukturerade och ostrukturerade data. I den här arkitekturen använder vi ADLS för att lagra både batchdata och strömmande data.

  • Machine Learning är en molnbaserad miljö som hjälper dig att skapa, distribuera och hantera lösningar för förutsägelseanalys. Med dessa modeller kan du förutsäga beteende, resultat och trender. I den här arkitekturen kan AML utnyttja data som transformeras av Databricks för träning och slutsatsdragning av modeller.

  • AKS är en mycket tillgänglig, säker och fullständigt hanterad Kubernetes-tjänst. AKS gör det enkelt att distribuera och hantera containerbaserade program. I den här arkitekturen används AKS för att vara värd för maskininlärningsmodeller i en containerbaserad miljö för skalbar slutsatsdragning.

  • Delta Lake är ett lagringslager som använder ett öppet filformat. Det här lagret körs ovanpå molnlagring, till exempel Data Lake Storage Gen2. Delta Lake stöder dataversionshantering, återställning och transaktioner för uppdatering, borttagning och sammanslagning av data. I den här arkitekturen fungerar Delta som det primära filformatet för att skriva och läsa data från ADLS.

  • MLflow är en plattform med öppen källkod för att hantera livscykeln för maskininlärning. Dess komponenter övervakar maskininlärningsmodeller under träning och körning. I den här arkitekturen, som liknar AML, kan du använda MLflow i Databricks för att hantera ml-livscykeln, inklusive träning och slutsatsdragning med hjälp av Unity Catalog-data som du just transformerade i Databricks.

Rapportering och styrning av komponenter

  • Databricks Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks-arbetsytor. I den här arkitekturen fungerar Unity Catalog som det primära verktyget i Databricks för att hantera och skydda dataåtkomst.

  • Power BI är en samling programtjänster och appar. Dessa tjänster skapar och delar rapporter som ansluter och visualiserar orelaterade datakällor. Tillsammans med Azure Databricks kan Power BI tillhandahålla rotorsaksbestämning och analys av rådata. I den här arkitekturen används Power BI för att skapa instrumentpaneler och rapporter som ger insikter om de data som bearbetas av Databricks och Fabric.

  • Microsoft Purview hanterar lokala, multimolnbaserade och saaS-data (software as a service). Den här styrningstjänsten underhåller datalandskapskartor. Funktionerna omfattar automatiserad dataidentifiering, klassificering av känsliga data och data härkomst. I den här arkitekturen används Purview för att skanna och hålla reda på data som matas in i Unity Catalog, Fabric, Power BI och ADLS.

  • Azure DevOps är en DevOps-orkestreringsplattform. Den här SaaS innehåller verktyg och miljöer för att skapa, distribuera och samarbeta i program. I den här arkitekturen används Azure DevOps för att automatisera distributionen av Azure-infrastrukturen. Dessutom kan du använda GitHub för automatisering och versionskontroll av Databricks-kod för bättre samarbete, spårning av ändringar och integrering med CI/CD-pipelines.

  • Azure Key Vault lagrar och styr åtkomsten till hemligheter som token, lösenord och API-nycklar. Key Vault skapar och styr även krypteringsnycklar och hanterar säkerhetscertifikat. I den här architecure används AKV för att lagra SAS-nycklar från ADLS. Dessa nycklar används sedan i Databricks och andra tjänster för autentisering.

  • Microsoft Entra ID erbjuder molnbaserade identitets- och åtkomsthanteringstjänster. De här funktionerna är ett sätt för användare att logga in och komma åt resurser. I den här architecure används Entra-ID för att autentisera och auktorisera användare och tjänster i Azure.

  • SCIM- kan du konfigurera etablering till Azure Databricks-kontot med hjälp av Microsoft Entra-ID. I den här arkitekturen används den för att hantera användare som har åtkomst till Databricks-arbetsytor.

  • Azure Monitor samlar in och analyserar data om miljöer och Azure-resurser. Dessa data omfattar apptelemetri, till exempel prestandamått och aktivitetsloggar. I den här arkitekturen används Azure Monitor för att övervaka hälsotillståndet för beräkningsresurser i Databricks och Azure Machine Learning, samt andra komponenter som skickar loggar till Azure Monitor.

  • Microsoft Cost Management hanterar molnutgifter. Med hjälp av budgetar och rekommendationer organiserar den här tjänsten utgifter och visar hur du minskar kostnaderna. I den här arkitekturen används Microsoft Cost Management för att övervaka och kontrollera kostnaden för hela lösningen.

Information om scenario

Moderna dataarkitekturer uppfyller följande kriterier:

  • Förena arbetsbelastningar för data, analys och AI.
  • Kör effektivt och tillförlitligt i valfri skala.
  • Ge insikter via analysinstrumentpaneler, driftrapporter eller avancerad analys.

Den här lösningen beskriver en modern dataarkitektur som uppnår dessa mål. Azure Databricks utgör kärnan i lösningen. Den här plattformen fungerar sömlöst med andra tjänster. Tillsammans tillhandahåller dessa tjänster en lösning med följande egenskaper:

  • Enkelt: Enhetlig analys, datavetenskap och maskininlärning förenklar dataarkitekturen.
  • Öppen: Lösningen stöder öppen källkod, öppna standarder och öppna ramverk. Det fungerar också med populära integrerade utvecklingsmiljöer (IDEs), bibliotek och programmeringsspråk. Via interna anslutningsappar och API:er fungerar lösningen även med ett brett utbud av andra tjänster.
  • Samarbete: Datatekniker, dataforskare och analytiker arbetar tillsammans med den här lösningen. De kan använda gemensamma notebook-filer, IDE:er, instrumentpaneler och andra verktyg för att komma åt och analysera vanliga underliggande data.

Potentiella användningsfall

Systemet som Swiss Re Group byggde för sin division Property & Casualty Reinsurance inspirerade denna lösning. Förutom försäkringsbranschen kan alla områden som arbetar med stordata eller maskininlärning också dra nytta av den här lösningen. Exempel:

  • Energisektorn
  • Detaljhandel och näthandel
  • Bank och ekonomi
  • Medicin och sjukvård

Nästa steg

Mer information om relaterade lösningar finns i den här informationen: