Delen via


Data lakehouse-architectuur: Goed ontworpen framework voor Databricks

Deze set van artikelen over data lakehouse-architectuur biedt principes en best practices voor de implementatie en werking van een lakehouse met behulp van Azure Databricks.

Goed ontworpen Databricks-framework voor het lakehouse

Goed ontworpen framework: data lakehouse-diagram.

Het goed ontworpen lakehouse bestaat uit 7 pijlers die verschillende aandachtspunten beschrijven voor de implementatie van een data lakehouse in de cloud:

  • Gegevens en AI-governance

    Het toezicht om ervoor te zorgen dat gegevens en AI waarde opleveren en uw bedrijfsstrategie ondersteunen.

  • Interoperabiliteit en bruikbaarheid

    De mogelijkheid van lakehouse om te communiceren met gebruikers en andere systemen.

  • Operationele uitmuntendheid

    Alle bewerkingsprocessen die het lakehouse in productie houden.

  • Beveiliging, privacy en naleving

    Beveilig de Azure Databricks-toepassing, klantworkloads en klantgegevens tegen bedreigingen.

  • Betrouwbaarheid

    Het vermogen van een systeem om te herstellen van fouten en te kunnen blijven functioneren.

  • Prestatie-efficiëntie

    Het vermogen van een systeem om zich aan te passen aan wijzigingen in de belasting.

  • Kostenoptimalisatie

    Kosten beheren om de geleverde waarde te maximaliseren.

Het goed ontworpen lakehouse breidt het Microsoft Azure Well-Architected Framework uit naar het Databricks Data Intelligence Platform en shares de pijlers 'Operational Excellence', 'Security' (als 'Security, privacy en naleving"), "betrouwbaarheid," "prestatie-efficiëntie" en "kostenoptimalisatie."

Voor deze vijf pijlers zijn de principes en best practices van het cloudframework nog steeds van toepassing op het lakehouse. De goed ontworpen lakehouse breidt deze uit met principes en best practices die specifiek zijn voor het lakehouse en belangrijk zijn voor het bouwen van een effectief en efficiënt lakehouse.

De lakehouse-specifieke pijlers

De pijlers 'Data and AI Governance' en 'Interoperability and Usability' hebben betrekking op specifieke problemen voor het lakehouse.

Gegevens en AI-governance bevatten het beleid en de procedures die zijn geïmplementeerd om de gegevens en AI-assets binnen een organisatie veilig te beheren. Een van de fundamentele aspecten van een lakehouse is gecentraliseerde gegevens en AI-governance: Het lakehouse unifieert datawarehousing en AI-use cases op één platform. Dit vereenvoudigt de moderne gegevensstack door de gegevenssilo's te elimineren die traditioneel gescheiden en gecompliceerd zijn voor data engineering, analyses, BI, gegevenswetenschap en machine learning. Ter vereenvoudiging van deze governancetaken biedt lakehouse een geïntegreerde governanceoplossing voor gegevens, analyses en AI. Door de kopieën van uw gegevens te minimaliseren en over te stappen op één gegevensverwerkingslaag where al uw besturingselementen voor gegevens en AI-governance samen kunnen worden uitgevoerd, verbetert u de kans op naleving en het detecteren van een gegevenslek.

Een ander belangrijk tenet van lakehouse is om een geweldige gebruikerservaring te bieden voor alle personen die ermee werken en om te kunnen communiceren met een breed ecosysteem van externe systemen. Azure heeft al verschillende gegevenshulpprogramma's die de meeste taken uitvoeren die een gegevensgestuurde onderneming mogelijk nodig heeft. Deze hulpprogramma's moeten echter correct worden samengesteld om alle functionaliteit te bieden, waarbij elke service een andere gebruikerservaring biedt. Deze aanpak kan leiden tot hoge implementatiekosten en biedt doorgaans niet dezelfde gebruikerservaring als een systeemeigen Lakehouse-platform: Gebruikers worden beperkt door inconsistenties tussen hulpprogramma's en een gebrek aan samenwerkingsmogelijkheden, en moeten vaak complexe processen doorlopen om toegang te krijgen tot het systeem en dus tot de gegevens.

Een geïntegreerd lakehouse aan de andere kant biedt een consistente gebruikerservaring voor alle workloads en verhoogt de bruikbaarheid. Dit vermindert de kosten voor training en onboarding en verbetert de samenwerking tussen functies. Bovendien worden nieuwe functies automatisch in de loop van de tijd toegevoegd - om de gebruikerservaring verder te verbeteren - zonder dat interne resources en budgetten hoeven te worden geïnvesteerd.

Een benadering met meerdere clouds kan een doelbewuste strategie zijn van een bedrijf of het resultaat van fusies en overnames of onafhankelijke bedrijfseenheden die verschillende cloud-providersselecteren. In dit geval leidt het gebruik van een lakehouse met meerdere clouds tot een uniforme gebruikerservaring in alle clouds. Dit vermindert de verspreiding van systemen in de hele onderneming, wat op zijn beurt de vaardigheids- en trainingsvereisten vermindert van werknemers die betrokken zijn bij gegevensgestuurde taken.

Ten slotte moeten systemen in een netwerkwereld met bedrijfsprocessen tussen bedrijven zo naadloos mogelijk samenwerken. De mate van interoperabiliteit is hier een cruciaal criterium en de meest recente gegevens, als kernasset van elk bedrijf, moeten veilig stromen tussen de systemen van interne en externe partners.

Principes en best practices