Samverkan och användbarhet för data lakehouse
Den här artikeln beskriver arkitektoniska principer för samverkan och användbarhet pelarprincip, och hur lakehousens interaktion med användare och andra system fungerar. En av de grundläggande idéerna i lakehouse är att ge en bra användarupplevelse för alla personer som arbetar med det, och att kunna interagera med ett brett ekosystem av externa system.
- Samverkan är möjligheten för ett system att arbeta med och integrera med andra system. Det innebär interaktion mellan olika komponenter och produkter, eventuellt från flera leverantörer, och mellan tidigare och framtida versioner av samma produkt.
- Användbarhet är måttet på hur väl ett system gör det möjligt för användare att utföra uppgifter på ett säkert, effektivt och effektivt sätt.
Genom att följa principerna i den här pelaren kan du:
- Uppnå en konsekvent och samarbetsinriktad användarupplevelse.
- Utnyttja synergieffekter mellan moln.
- Förenkla integreringen från och till sjöhuset.
- Minska kostnaderna för utbildning och aktivering.
Och i slutändan leder till en snabbare tid till värde.
Principer för samverkan och användbarhet
Definiera standarder för integrering
Integreringen har olika aspekter och kan göras på många olika sätt. För att undvika ett ökande antal verktyg och metoder måste bästa praxis definieras och en lista över välstödda och föredragna verktyg och anslutningar bör tillhandahållas.
En av de viktigaste arkitekturprinciperna är modularitet och lös koppling snarare än nära integrering. Detta minskar beroenden mellan komponenter och arbetsbelastningar, hjälper till att eliminera biverkningar och möjliggör oberoende utveckling på olika tidsskalor. Använd datauppsättningar och deras schema som ett kontrakt. Separera arbetsbelastningar som dataomvandlingsjobb (till exempel inläsning och transformering av data till en datasjö) från värdeskapande jobb (till exempel rapportering, instrumentpaneler och funktionsutveckling för datavetenskap). Definiera en central datakatalog med riktlinjer för dataformat, datakvalitet och datalivscykel.
Använd öppna gränssnitt och öppna dataformat
Ofta utvecklas lösningar där data endast kan nås via ett visst system. Detta kan leda till leverantörslåsning, men det kan också innebära en stor kostnadsökning om dataåtkomst via systemet omfattas av licensavgifter. Genom att använda öppna dataformat och gränssnitt kan du undvika detta. De förenklar också integreringen med befintliga system och öppnar ett ekosystem av partner som redan har integrerat sina verktyg med lakehouse.
Om du använder ekosystem med öppen källkod, till exempel Python eller R för datavetenskap eller Spark eller ANSI SQL för dataåtkomst och åtkomstbehörighetskontroll, har du lättare att hitta personal för projekt. Det kommer också att förenkla potentiella migreringar till och från en plattform.
Förenkla implementeringen av nya användningsfall
För att få ut mesta möjliga av data i datasjön måste användarna enkelt kunna distribuera sina användningsfall på plattformen. Detta börjar med effektiva processer kring plattformsåtkomst och datahantering. Till exempel hjälper självbetjäningsåtkomst till plattformen till att förhindra att ett centralt team blir en flaskhals. Delade miljöer och fördefinierade skisser för distribution av nya miljöer säkerställer att plattformen snabbt är tillgänglig för alla företagsanvändare.
Säkerställa datakonsekvens och användbarhet
Två viktiga aktiviteter på en dataplattform är datapublicering och dataförbrukning. Ur ett publiceringsperspektiv bör data erbjudas som en produkt. Utgivare måste följa en definierad livscykel med konsumenter i åtanke, och data måste definieras tydligt med hanterade scheman, beskrivningar och så vidare.
Det är också viktigt att tillhandahålla semantiskt konsekventa data så att konsumenterna enkelt kan förstå och korrekt kombinera olika datauppsättningar. Dessutom måste alla data vara lätta att identifiera och vara tillgängliga för konsumenter via en central katalog med korrekt kurerade metadata och data härkomst.