Tillförlitlighet för data lakehouse

Artikel
06/14/2024

Arkitekturprinciperna för tillförlitlighetspelare tar upp möjligheten för ett system att återställa från fel och fortsätta att fungera.

Arkitekturdiagram för Reliability lakehouse för Databricks.

Principer för tillförlitlighet

Design för fel

I en mycket distribuerad miljö kan avbrott uppstå. För både plattformen och de olika arbetsbelastningarna – till exempel strömningsjobb, batchjobb, modellträning och BI-frågor – måste fel förväntas och motståndskraftiga lösningar måste utvecklas för att öka tillförlitligheten. Fokus ligger på att utforma program så att de kan återställas snabbt och i bästa fall automatiskt.
Hantera datakvalitet

Datakvalitet är grundläggande för att härleda korrekta och meningsfulla insikter från data. Datakvaliteten har många dimensioner, inklusive fullständighet, noggrannhet, giltighet och konsekvens. Den måste hanteras aktivt för att förbättra kvaliteten på de slutliga datamängderna så att data fungerar som tillförlitlig och tillförlitlig information för företagsanvändare.
Design för automatisk skalning

Standard-ETL-processer, affärsrapporter och instrumentpaneler har ofta förutsägbara resurskrav när det gäller minne och beräkning. Nya projekt, säsongsaktiviteter eller avancerade metoder som modellträning (för omsättning, prognostisering och underhåll) skapar dock toppar i resurskraven. För att en organisation ska kunna hantera alla dessa arbetsbelastningar behöver den en skalbar lagrings- och beräkningsplattform. Det måste vara enkelt att lägga till nya resurser efter behov, och endast den faktiska förbrukningen ska debiteras för. När toppen är över kan resurser frigöras och kostnaderna minskas i enlighet därmed. Detta kallas ofta horisontell skalning (antal noder) och lodrät skalning (storlek på noder).
Testa återställningsprocedurer

En företagsstrategi för haveriberedskap för de flesta program och system kräver en bedömning av prioriteringar, funktioner, begränsningar och kostnader. En tillförlitlig metod för haveriberedskap testar regelbundet hur arbetsbelastningar misslyckas och validerar återställningsprocedurer. Automatisering kan användas för att simulera olika fel eller återskapa scenarier som tidigare har orsakat fel.
Automatisera distributioner och arbetsbelastningar

Genom att automatisera distributioner och arbetsbelastningar för lakehouse kan du standardisera dessa processer, eliminera mänskliga fel, förbättra produktiviteten och ge bättre repeterbarhet. Detta inkluderar att använda "konfiguration som kod" för att undvika konfigurationsavvikelser och "infrastruktur som kod" för att automatisera etableringen av alla nödvändiga lakehouse- och molntjänster.
Övervaka system och arbetsbelastningar

Arbetsbelastningar i lakehouse integrerar vanligtvis Databricks-plattformstjänster och externa molntjänster, till exempel som datakällor eller mål. Lyckad körning kan bara inträffa om varje tjänst i körningskedjan fungerar korrekt. När så inte är fallet är övervakning, aviseringar och loggning viktiga för att identifiera och spåra problem och förstå systemets beteende.

Nästa: Metodtips för tillförlitlighet

Se Metodtips för tillförlitlighet.

Dela via

Tillförlitlighet för data lakehouse

Principer för tillförlitlighet

Nästa: Metodtips för tillförlitlighet

Feedback

Ytterligare resurser