Driftskvalitet för data lakehouse
Arkitekturprinciperna för driftskvalitet pelare täcker alla operativa processer som håller sjöhuset igång. Driftskvalitet tar upp möjligheten att driva sjöhuset effektivt och diskuterar hur man arbetar, hanterar och övervakar sjöhuset för att leverera affärsvärde.
Principer för driftskvalitet
Optimera bygg- och versionsprocesser
Använd bästa praxis för programvaruutveckling i din hela lakehouse-miljön. Skapa och släppa med kontinuerlig integrering och pipelines för kontinuerlig leverans för både DevOps och MLOps.
Automatisera distributioner och arbetsbelastningar
Genom att automatisera distributioner och arbetsbelastningar för lakehouse kan du standardisera dessa processer, eliminera mänskliga fel, förbättra produktiviteten och ge bättre repeterbarhet. Detta inkluderar att använda "konfiguration som kod" för att undvika konfigurationsavvikelser och "infrastruktur som kod" för att automatisera etableringen av alla nödvändiga lakehouse- och molntjänster.
För ML specifikt bör processer driva automatisering: Inte varje steg i en process kan eller bör automatiseras. Människor bestämmer fortfarande affärsfrågorna, och vissa modeller behöver alltid mänsklig tillsyn innan distributionen. Därför är utvecklingsprocessen primär och varje modul i processen bör automatiseras efter behov. Detta möjliggör inkrementell utökning av automatisering och anpassning.
Konfigurera övervakning, aviseringar och loggning
Arbetsbelastningar i en lakehouse-miljö integrerar vanligtvis Databricks-plattformstjänster och externa molntjänster, till exempel som datakällor eller destinationer. Framgångsrik exekvering kan bara inträffa om varje service i exekveringskedjan fungerar korrekt. När så inte är fallet är övervakning, aviseringar och loggning viktiga för att identifiera och spåra problem och förstå systemets beteende.
Hantera kapacitet och kvoter
För alla tjänster som startas i ett moln tar du hänsyn till begränsningar, till exempel begränsningar för åtkomstfrekvens, antal instanser, antal användare och minnesbehov. Innan du utformar en lösning måste dessa gränser förstås.