Tillförlitlighet för data lakehouse
Arkitekturprinciperna för tillförlitlighetspelare tar upp möjligheten för ett system att återställa från fel och fortsätta att fungera.
Principer för tillförlitlighet
Design för fel
I en mycket distribuerad miljö kan avbrott uppstå. För både plattformen och de olika arbetsbelastningarna – till exempel strömningsjobb, batchjobb, modellträning och BI-frågor – måste fel förväntas och motståndskraftiga lösningar måste utvecklas för att öka tillförlitligheten. Fokus ligger på att utforma program så att de kan återställas snabbt och i bästa fall automatiskt.
Hantera datakvalitet
Datakvalitet är grundläggande för att härleda korrekta och meningsfulla insikter från data. Datakvaliteten har många dimensioner, inklusive fullständighet, noggrannhet, giltighet och konsekvens. Den måste hanteras aktivt för att förbättra kvaliteten på de slutliga datamängderna så att data fungerar som tillförlitlig och tillförlitlig information för företagsanvändare.
Design för automatisk skalning
Standard-ETL-processer, affärsrapporter och instrumentpaneler har ofta förutsägbara resurskrav när det gäller minne och beräkning. Nya projekt, säsongsaktiviteter eller avancerade metoder som modellträning (för omsättning, prognostisering och underhåll) skapar dock toppar i resurskraven. För att en organisation ska kunna hantera alla dessa arbetsbelastningar behöver den en skalbar lagrings- och beräkningsplattform. Det måste vara enkelt att lägga till nya resurser efter behov, och endast den faktiska förbrukningen ska debiteras för. När toppen är över kan resurser frigöras och kostnaderna minskas i enlighet därmed. Detta kallas ofta horisontell skalning (antal noder) och lodrät skalning (storlek på noder).
Testa återställningsprocedurer
En företagsstrategi för haveriberedskap för de flesta program och system kräver en bedömning av prioriteringar, funktioner, begränsningar och kostnader. En tillförlitlig metod för haveriberedskap testar regelbundet hur arbetsbelastningar misslyckas och validerar återställningsprocedurer. Automatisering kan användas för att simulera olika fel eller återskapa scenarier som tidigare har orsakat fel.
Automatisera distributioner och arbetsbelastningar
Genom att automatisera distributioner och arbetsbelastningar för lakehouse kan du standardisera dessa processer, eliminera mänskliga fel, förbättra produktiviteten och ge bättre repeterbarhet. Detta inkluderar att använda "konfiguration som kod" för att undvika konfigurationsavvikelser och "infrastruktur som kod" för att automatisera etableringen av alla nödvändiga lakehouse- och molntjänster.
Övervaka system och arbetsbelastningar
Arbetsbelastningar i lakehouse integrerar vanligtvis Databricks-plattformstjänster och externa molntjänster, till exempel som datakällor eller mål. Lyckad körning kan bara inträffa om varje tjänst i körningskedjan fungerar korrekt. När så inte är fallet är övervakning, aviseringar och loggning viktiga för att identifiera och spåra problem och förstå systemets beteende.