Dela via


Tillförlitlighet för data lakehouse

Arkitekturprinciperna för tillförlitlighetspelare tar upp möjligheten för ett system att återställa från fel och fortsätta att fungera.

Arkitekturdiagram för Reliability lakehouse för Databricks.

Principer för tillförlitlighet

  1. Design för fel

    I en mycket distribuerad miljö kan avbrott uppstå. För både plattformen och de olika arbetsbelastningarna – till exempel strömningsjobb, batchjobb, modellträning och BI-frågor – måste fel förväntas och motståndskraftiga lösningar måste utvecklas för att öka tillförlitligheten. Fokus ligger på att utforma program så att de kan återställas snabbt och i bästa fall automatiskt.

  2. Hantera datakvalitet

    Datakvalitet är grundläggande för att härleda korrekta och meningsfulla insikter från data. Datakvaliteten har många dimensioner, inklusive fullständighet, noggrannhet, giltighet och konsekvens. Den måste hanteras aktivt för att förbättra kvaliteten på de slutliga datamängderna så att data fungerar som tillförlitlig och tillförlitlig information för företagsanvändare.

  3. Design för automatisk skalning

    Standard-ETL-processer, affärsrapporter och instrumentpaneler har ofta förutsägbara resurskrav när det gäller minne och beräkning. Nya projekt, säsongsaktiviteter eller avancerade metoder som modellträning (för omsättning, prognostisering och underhåll) skapar dock toppar i resurskraven. För att en organisation ska kunna hantera alla dessa arbetsbelastningar behöver den en skalbar lagrings- och beräkningsplattform. Det måste vara enkelt att lägga till nya resurser efter behov, och endast den faktiska förbrukningen ska debiteras för. När toppen är över kan resurser frigöras och kostnaderna minskas i enlighet därmed. Detta kallas ofta horisontell skalning (antal noder) och lodrät skalning (storlek på noder).

  4. Testa återställningsprocedurer

    En företagsstrategi för haveriberedskap för de flesta program och system kräver en bedömning av prioriteringar, funktioner, begränsningar och kostnader. En tillförlitlig metod för haveriberedskap testar regelbundet hur arbetsbelastningar misslyckas och validerar återställningsprocedurer. Automatisering kan användas för att simulera olika fel eller återskapa scenarier som tidigare har orsakat fel.

  5. Automatisera distributioner och arbetsbelastningar

    Genom att automatisera distributioner och arbetsbelastningar för lakehouse kan du standardisera dessa processer, eliminera mänskliga fel, förbättra produktiviteten och ge bättre repeterbarhet. Detta inkluderar att använda "konfiguration som kod" för att undvika konfigurationsavvikelser och "infrastruktur som kod" för att automatisera etableringen av alla nödvändiga lakehouse- och molntjänster.

  6. Övervaka system och arbetsbelastningar

    Arbetsbelastningar i lakehouse integrerar vanligtvis Databricks-plattformstjänster och externa molntjänster, till exempel som datakällor eller mål. Lyckad körning kan bara inträffa om varje tjänst i körningskedjan fungerar korrekt. När så inte är fallet är övervakning, aviseringar och loggning viktiga för att identifiera och spåra problem och förstå systemets beteende.

Nästa: Metodtips för tillförlitlighet

Se Metodtips för tillförlitlighet.