Dela via


Data lakehouse-arkitektur: Databricks välarkitekterade ramverk

Den här uppsättningen data lakehouse-arkitekturartiklar innehåller principer och metodtips för implementering och drift av ett lakehouse med Hjälp av Azure Databricks.

Databricks välarkitekterade ramverk för lakehouse

Välkonstruerat ramverk: data lakehouse-diagram.

Det välarkitekterade sjöhuset består av 7 pelare som beskriver olika områden som är viktiga för implementeringen av ett datasjöhus i molnet:

  • Datastyrning

    Tillsynen för att säkerställa att data ger värde och stöder din affärsstrategi.

  • Samverkan och användbarhet

    Sjöhusets förmåga att interagera med användare och andra system.

  • Driftsäkerhet

    Alla driftsprocesser som håller lakehouse igång i produktion.

  • Säkerhet, sekretess och efterlevnad

    Skydda Azure Databricks-programmet, kundarbetsbelastningar och kunddata mot hot.

  • Tillförlitlighet

    Systemets förmåga att hantera och återställa fel på ett bra sätt.

  • Prestandaeffektivitet

    Systemets förmåga att hantera belastningsförändringar.

  • Kostnadsoptimering

    Hantera kostnader för att maximera värdet.

Det välarkitekterade lakehouse utökar Microsoft Azure Well-Architected Framework till Databricks Data Intelligence Platform och delar grundpelarna "Operational Excellence", "Security" (som "Säkerhet, sekretess och efterlevnad"), "Tillförlitlighet", "Prestandaeffektivitet" och "Kostnadsoptimering".

För dessa fem pelare gäller principerna och bästa praxis för molnramverket fortfarande för lakehouse. Det välarkitekterade sjöhuset utökar dessa med principer och bästa praxis som är specifika för sjöhuset och viktiga för att bygga ett effektivt och effektivt sjöhus.

Datastyrning och samverkan och användbarhet i lakehouse-arkitekturer

Grundpelarna "Datastyrning" och "Interoperabilitet och användbarhet" omfattar frågor som är specifika för sjöhuset.

Datastyrning kapslar in de principer och metoder som implementeras för att hantera datatillgångarna i en organisation på ett säkert sätt. En av de grundläggande aspekterna av ett sjöhus är centraliserad datastyrning: Lakehouse förenar informationslager och AI använder fall på en enda plattform. Detta förenklar den moderna datastacken genom att eliminera de datasilor som traditionellt separerar och komplicerar datateknik, analys, BI, datavetenskap och maskininlärning. För att förenkla datastyrningen erbjuder Lakehouse en enhetlig styrningslösning för data, analys och AI. Genom att minimera kopiorna av dina data och flytta till ett enda databehandlingslager där alla dina datastyrningskontroller kan köras tillsammans, förbättrar du dina chanser att hålla dig i kompatibilitet och upptäcka ett dataintrång.

En annan viktig grundsats i lakehouse är att ge en bra användarupplevelse för alla personer som arbetar med det, och att kunna interagera med ett brett ekosystem av externa system. Azure har redan en mängd olika dataverktyg som utför de flesta uppgifter som ett datadrivet företag kan behöva. Dessa verktyg måste dock vara korrekt monterade för att tillhandahålla alla funktioner, där varje tjänst erbjuder en annan användarupplevelse. Den här metoden kan leda till höga implementeringskostnader och ger vanligtvis inte samma användarupplevelse som en inbyggd lakehouse-plattform: Användarna begränsas av inkonsekvenser mellan verktyg och brist på samarbetsfunktioner och måste ofta gå igenom komplexa processer för att få åtkomst till systemet och därmed till data.

Ett integrerat sjöhus på andra sidan ger en konsekvent användarupplevelse för alla arbetsbelastningar och ökar därför användbarheten. Detta minskar kostnaderna för utbildning och registrering och förbättrar samarbetet mellan funktioner. Dessutom läggs nya funktioner automatiskt till över tid – för att ytterligare förbättra användarupplevelsen – utan att behöva investera interna resurser och budgetar.

En strategi för flera moln kan vara en avsiktlig strategi för ett företag eller resultatet av fusioner och förvärv eller oberoende affärsenheter som väljer olika molnleverantörer. I det här fallet resulterar användning av ett sjöhus med flera moln till en enhetlig användarupplevelse i alla moln. Detta minskar spridningen av system i hela företaget, vilket i sin tur minskar kompetens- och utbildningskraven för anställda som är involverade i datadrivna uppgifter.

I en nätverksbaserad värld med affärsprocesser mellan företag måste systemen slutligen fungera så smidigt som möjligt tillsammans. Graden av samverkan är ett avgörande kriterium här, och de senaste uppgifterna, som en kärntillgång i alla företag, måste flöda säkert mellan interna och externa partnersystem.

Principer och metodtips