Redigera

Dela via


Skapa en modern analysarkitektur med hjälp av Azure Databricks

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

Lösningsidéer

I den här artikeln beskrivs en lösningsidé. Molnarkitekten kan använda den här vägledningen för att visualisera huvudkomponenterna för en typisk implementering av den här arkitekturen. Använd den här artikeln som utgångspunkt för att utforma en välkonstruerad lösning som överensstämmer med arbetsbelastningens specifika krav.

Den här lösningen beskriver huvudprinciperna och komponenterna i moderna dataarkitekturer. Azure Databricks utgör kärnan i lösningen. Den här plattformen fungerar sömlöst med andra tjänster, till exempel Azure Data Lake Storage, Microsoft Fabric och Power BI.

Apache® och Apache Spark™ är antingen registrerade varumärken eller varumärken som tillhör Apache Software Foundation i USA och/eller andra länder. Inget godkännande från Apache Software Foundation underförstås av användningen av dessa märken.

Arkitektur

Arkitekturdiagram som visar hur en modern dataarkitektur samlar in, bearbetar, analyserar och visualiserar data.

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

  1. Azure Databricks matar in rådata från Azure Event Hubs med hjälp av Delta Live Tables.

  2. Fabric Data Factory läser in råa batchdata till Data Lake Storage.

  3. För datalagring:

    • Data Lake Storage innehåller alla typer av data, inklusive strukturerade, ostrukturerade och delvis strukturerade data. Den lagrar även batch- och strömmande data.

    • Delta Lake utgör datasjöns kurerade lager. Den lagrar raffinerade data i ett format med öppen källkod.

    • Azure Databricks fungerar bra med en medaljongarkitektur som organiserar data i lager:

      • Bronsskikt: Innehåller rådata.
      • Silverlager: Innehåller rensade, filtrerade data.
      • Guldlager: Lagrar aggregerade data som är användbara för affärsanalyser.
  4. Analysplattformen matar in data från de olika batch- och strömningskällorna. Dataexperter använder dessa data för uppgifter som:

    • Förberedelse av data.
    • Datautforskning.
    • Modellförberedelse.
    • Modellträning.

    MLflow hanterar parameter-, mått- och modellspårning i data science-kodkörningar. Kodningsmöjligheterna är flexibla:

    • Koden kan finnas i SQL, Python, R och Scala.
    • Kod kan använda populära bibliotek och ramverk med öppen källkod, till exempel Koalas, Pandas och scikit-learn, som är förinstallerade och optimerade.
    • Användare kan optimera för prestanda och kostnader med hjälp av beräkningsalternativ med en nod och flera noder.
  5. Maskininlärningsmodeller är tillgängliga i följande format:

    • Azure Databricks lagrar information om modeller i MLflow Model Registry. Registret gör modeller tillgängliga via batch-, strömnings- och REST-API:er.
    • Lösningen kan också distribuera modeller till Azure Machine Learning-webbtjänster eller Azure Kubernetes Service (AKS).
  6. Tjänster som fungerar med data ansluter till en enda underliggande datakälla för att säkerställa konsekvens. Du kan till exempel köra SQL-frågor på datasjön med hjälp av Azure Databricks SQL-lager. Den här tjänsten:

    • Tillhandahåller en frågeredigerare och katalog, frågehistorik, grundläggande instrumentpaneler och aviseringar.
    • Använder integrerad säkerhet som innehåller behörigheter på radnivå och behörigheter på kolumnnivå.
    • Använder en Photon-baserad deltamotor för att förbättra prestanda.
  7. Du kan spegla gulddatauppsättningar från Azure Databricks Unity Catalog till Fabric. Använd Azure Databricks-spegling i Fabric för att enkelt integrera utan att behöva flytta eller replikera data.

  8. Power BI genererar analytiska och historiska rapporter och instrumentpaneler från den enhetliga dataplattformen. Den här tjänsten använder följande funktioner när den fungerar med Azure Databricks:

    • En inbyggd Azure Databricks-anslutningsapp för visualisering av underliggande data.
    • Optimerade Java Database-anslutningar och Open Database Connectivity-drivrutiner.
    • Du kan använda Direct Lake med Azure Databricks-spegling i Fabric för att läsa in dina Power BI-semantiska modeller för frågor med högre prestanda.
  9. Lösningen använder Unity Catalog och Azure-tjänster för samarbete, prestanda, tillförlitlighet, styrning och säkerhet:

    • Azure Databricks Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks-arbetsytor.

    • Microsoft Purview tillhandahåller dataidentifieringstjänster, klassificering av känsliga data och styrningsinsikter i dataegendomen.

    • Azure DevOps erbjuder kontinuerlig integrering och kontinuerlig distribution (CI/CD) och andra funktioner för integrerad versionskontroll.

    • Azure Key Vault hjälper dig att hantera hemligheter, nycklar och certifikat på ett säkert sätt.

    • Microsoft Entra ID och SCIM-etableringen (System for Cross-domain Identity Management) ger enkel inloggning för Azure Databricks-användare och -grupper. Azure Databricks stöder automatiserad användaretablering med Microsoft Entra-ID för att:

      • Skapa nya användare och grupper.
      • Tilldela varje användare en åtkomstnivå.
      • Ta bort användare och neka dem åtkomst.
    • Azure Monitor samlar in och analyserar Azure-resurstelemetri. Genom att proaktivt identifiera problem maximerar den här tjänsten prestanda och tillförlitlighet.

    • Microsoft Cost Management tillhandahåller finansiella styrningstjänster för Azure-arbetsbelastningar.

Komponenter

Den här lösningen använder följande komponenter.

Kärnkomponenter

  • Azure Databricks är en dataanalysplattform som använder Spark-kluster för att bearbeta stora dataströmmar. Den rensar och transformerar ostrukturerade data och kombinerar dem med strukturerade data. Den kan också träna och distribuera maskininlärningsmodeller. I den här arkitekturen fungerar Azure Databricks som det centrala verktyget för datainmatning, bearbetning och servering. Det ger en enhetlig miljö för att hantera hela datalivscykeln.

  • Azure Databricks SQL-lager är beräkningsresurser som du kan använda för att fråga efter och utforska data i Azure Databricks. I den här arkitekturen kan du använda SQL-slutpunkter för att ansluta direkt till dina data från Power BI.

  • Azure Databricks Delta Live Tables är ett deklarativt ramverk för att skapa tillförlitliga, underhållsbara och testbara pipelines för databearbetning. I den här arkitekturen hjälper Delta Live Tables dig att definiera transformeringar som ska utföras på dina data. Det hjälper dig också att hantera uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering i Azure Databricks.

  • Microsoft Fabric är en analys- och dataplattform från slutpunkt till slutpunkt för organisationer som behöver en enhetlig lösning. Plattformen tillhandahåller tjänster som Data Engineering, Data Factory, Data Science, Real-Time Intelligence, Data Warehouse och Databases. Den här arkitekturen speglar Unity Catalog-tabeller i Infrastrukturresurser och använder Direct Lake i Power BI för bättre prestanda.

  • Data Factory i Microsoft Fabric är en modern dataintegreringsplattform som du kan använda för att mata in, förbereda och transformera data från en omfattande uppsättning datakällor i Fabric. Den här arkitekturen använder inbyggda anslutningsappar till flera datakällor för snabb inmatning till Data Lake Storage eller OneLake. Azure Databricks hämtar och transformerar batchdata ytterligare.

  • Event Hubs är en fullständigt hanterad plattform för stordataströmning. Som en plattform som en tjänst tillhandahåller den funktioner för händelseinmatning. Den här arkitekturen använder Event Hubs för strömmande data. Azure Databricks kan ansluta till dessa data och bearbeta dem med hjälp av Spark Streaming eller Delta Live Tables.

  • Data Lake Storage är en skalbar och säker datasjö för analys med höga prestanda. Den hanterar flera petabyte med data och stöder hundratals gigabit dataflöde. Data Lake Storage kan lagra strukturerade, delvis strukturerade och ostrukturerade data. Den här arkitekturen använder Data Lake Storage för att lagra både batchdata och strömmande data.

  • Machine Learning är en molnbaserad miljö som hjälper dig att skapa, distribuera och hantera lösningar för förutsägelseanalys. Med hjälp av dessa modeller kan du förutsäga beteende, resultat och trender. I den här arkitekturen använder Machine Learning data som Azure Databricks transformerar för träning och slutsatsdragning av modeller.

  • AKS är en mycket tillgänglig, säker och fullständigt hanterad Kubernetes-tjänst. AKS gör det enkelt att distribuera och hantera containerbaserade program. I den här arkitekturen är AKS värd för maskininlärningsmodeller i en containerbaserad miljö för skalbar slutsatsdragning.

  • Delta Lake är ett lagringslager som använder ett öppet filformat. Det här lagret körs ovanpå molnlagringslösningar som Data Lake Storage. Delta Lake stöder dataversionshantering, återställning och transaktioner för uppdatering, borttagning och sammanslagning av data. I den här arkitekturen fungerar Delta Lake som det primära filformatet för att skriva och läsa data från Data Lake Storage.

  • MLflow är en plattform med öppen källkod för att hantera livscykeln för maskininlärning. Dess komponenter övervakar maskininlärningsmodeller under träning och drift. I den här arkitekturen, som liknar Machine Learning, kan du använda MLflow i Azure Databricks för att hantera maskininlärningslivscykeln. Träna och härled modeller med hjälp av Unity Catalog-data som du transformerade i Azure Databricks.

Rapportering och styrning av komponenter

  • Azure Databricks Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Azure Databricks-arbetsytor. I den här arkitekturen fungerar Unity Catalog som det primära verktyget i Azure Databricks för att hantera och skydda dataåtkomst.

  • Power BI är en samling programtjänster och appar. Dessa tjänster skapar och delar rapporter som ansluter och visualiserar orelaterade datakällor. Tillsammans med Azure Databricks kan Power BI tillhandahålla rotorsaksbestämning och analys av rådata. Den här arkitekturen använder Power BI för att skapa instrumentpaneler och rapporter som ger insikter om de data som Azure Databricks och Fabric bearbetar.

  • Microsoft Purview hanterar lokala, multimolnbaserade och saaS-data (software as a service). Den här styrningstjänsten underhåller datalandskapskartor. Dess funktioner omfattar automatiserad dataidentifiering, klassificering av känsliga data och data härkomst. Den här arkitekturen använder Microsoft Purview för att skanna och spåra data som matas in i Unity Catalog, Fabric, Power BI och Data Lake Storage.

  • Azure DevOps är en DevOps-orkestreringsplattform. Den här SaaS innehåller verktyg och miljöer för att skapa, distribuera och samarbeta i program. Den här arkitekturen använder Azure DevOps för att automatisera distributionen av Azure-infrastrukturen. Du kan också använda GitHub för automatisering och versionskontroll av Azure Databricks-kod för bättre samarbete, ändringsspårning och integrering med CI/CD-pipelines.

  • Key Vault lagrar och styr åtkomsten till hemligheter, till exempel token, lösenord och API-nycklar. Key Vault skapar och styr även krypteringsnycklar och hanterar säkerhetscertifikat. Den här arkitekturen använder Key Vault för att lagra signaturnycklar för delad åtkomst från Data Lake Storage. Dessa nycklar används sedan i Azure Databricks och andra tjänster för autentisering.

  • Microsoft Entra ID erbjuder molnbaserade identitets- och åtkomsthanteringstjänster. De här funktionerna är ett sätt för användare att logga in och komma åt resurser. Den här arkitekturen använder Microsoft Entra-ID för att autentisera och auktorisera användare och tjänster i Azure.

  • SCIM- kan du konfigurera etablering till Azure Databricks-kontot med hjälp av Microsoft Entra-ID. Den här arkitekturen använder SCIM för att hantera användare som har åtkomst till Azure Databricks-arbetsytor.

  • Azure Monitor- samlar in och analyserar data i miljöer och Azure-resurser. Dessa data omfattar apptelemetri, till exempel prestandamått och aktivitetsloggar. Den här arkitekturen använder Azure Monitor för att övervaka hälsotillståndet för beräkningsresurser i Azure Databricks och Machine Learning och andra komponenter som skickar loggar till Azure Monitor.

  • Cost Management hjälper dig att hantera molnutgifter. Med hjälp av budgetar och rekommendationer organiserar den här tjänsten utgifter och visar hur du kan minska kostnaderna. Den här arkitekturen använder Cost Management för att övervaka och kontrollera kostnaden för hela lösningen.

Information om scenario

Moderna dataarkitekturer:

  • Förena arbetsbelastningar för data, analys och AI.
  • Kör effektivt och tillförlitligt i valfri skala.
  • Ge insikter via analysinstrumentpaneler, driftrapporter eller avancerad analys.

Den här lösningen beskriver en modern dataarkitektur som uppnår dessa mål. Azure Databricks utgör kärnan i lösningen. Den här plattformen fungerar sömlöst med andra tjänster. Tillsammans tillhandahåller dessa tjänster en lösning som är:

  • Enkelt: Enhetlig analys, datavetenskap och maskininlärning förenklar dataarkitekturen.
  • Öppen: Lösningen stöder öppen källkod, öppna standarder och öppna ramverk. Det fungerar också med populära integrerade utvecklingsmiljöer (IDEs), bibliotek och programmeringsspråk. Via interna anslutningsappar och API:er fungerar lösningen även med ett brett utbud av andra tjänster.
  • Samarbete: Datatekniker, dataforskare och analytiker arbetar tillsammans med den här lösningen. De kan använda gemensamma notebook-filer, IDE:er, instrumentpaneler och andra verktyg för att komma åt och analysera vanliga underliggande data.

Potentiella användningsfall

Systemet som Swiss Re Group byggde för sin division Property & Casualty Reinsurance inspirerade denna lösning. Förutom försäkringsbranschen kan alla områden som arbetar med stordata eller maskininlärning också dra nytta av den här lösningen. Exempel:

  • Energisektorn.
  • Detaljhandel och e-handel.
  • Bank- och finansbranschen.
  • Medicin och sjukvård.

Nästa steg

Mer information om relaterade lösningar finns i följande guider och arkitekturer.