Architektura Data Lakehouse: Dobře navržená architektura Databricks
Tato sada článků o architektuře data lakehouse poskytuje principy a osvědčené postupy pro implementaci a provoz lakehouse pomocí Azure Databricks.
Dobře navržená architektura Databricks pro jezero
Dobře navržená jezero se skládá ze 7 pilířů, které popisují různé oblasti zájmu při implementaci datového jezera v cloudu:
Zásady správného řízení pro data a AI
Dohled nad tím, aby data a AI přinesly hodnotu a podporovaly vaši obchodní strategii.
Interoperabilita a použitelnost
Schopnost jezeře komunikovat s uživateli a dalšími systémy.
Provozní dokonalost
Všechny provozní procesy, které udržují lakehouse spuštěné v produkčním prostředí.
Zabezpečení, ochrana osobních údajů a dodržování předpisů
Chraňte aplikaci Azure Databricks, úlohy zákazníků a zákaznická data před hrozbami.
Spolehlivost
Schopnost systému obnovit funkci v případě selhání a pokračovat v provozu.
Účinnost výkonu
Schopnost systému přizpůsobit se změnám zatížení
Optimalizace nákladů
Správa nákladů a maximalizace poskytované hodnoty
U těchto pěti pilířů se na jezero stále vztahují principy a osvědčené postupy cloudové architektury. dobře navržená je rozšiřuje o zásady a osvědčené postupy specifické pro jezero a důležité k vytvoření efektivního a efektivního jezera.
Pilíře specifické pro jezero
Pilíře "správa dat a umělé inteligence" a "interoperabilita a použitelnost" pokrývají obavy specifické pro lakehouse.
Správa dat a AI zahrnuje politiky a postupy implementované pro bezpečnou správu dat a aktiv AI v rámci organizace. Jedním ze základních aspektů lakehouse je centralizované řízení dat a AI: Lakehouse sjednocuje datové sklady a případy použití umělé inteligence na jedné platformě. To zjednodušuje moderní datový zásobník tím, že eliminuje sila dat, která tradičně odděluje a komplikuje přípravu dat, analýzy, BI, datové vědy a strojové učení. Pro zjednodušení těchto úloh zásad správného řízení nabízí lakehouse jednotné řešení zásad správného řízení pro data, analýzy a AI. Minimalizací kopií vašich dat a přechodem na jedinou vrstvu pro zpracování dat, ve které lze spravovat všechna data spolu s kontrolami AI, zvýšíte šanci na dodržení souladu s předpisy a detekování ohrožení dat.
Další důležitou součástí jezera je poskytnutí skvělého uživatelského prostředí pro všechny osoby, které s ním pracují, a schopnost pracovat s širokým ekosystémem externích systémů. Azure už má řadu datových nástrojů, které provádějí většinu úloh, které může potřebovat podnik řízený daty. Tyto nástroje však musí být správně sestaveny, aby poskytovaly všechny funkce, přičemž každá služba nabízí jiné uživatelské prostředí. Tento přístup může vést k vysokým nákladům na implementaci a obvykle neposkytuje stejné uživatelské prostředí jako nativní platforma lakehouse: Uživatelé jsou omezeni nekonzistencí mezi nástroji a chybějícími možnostmi spolupráce a často musí projít složitými procesy pro získání přístupu k systému a tím i datům.
Integrovaný lakehouse na druhé straně poskytuje konzistentní uživatelské prostředí napříč všemi úlohami a zvyšuje tak použitelnost. Tím se sníží náklady na trénování a onboarding a zlepší se spolupráce mezi funkcemi. Kromě toho se nové funkce postupně přidávají automaticky – aby se dále zlepšilo uživatelské prostředí – bez nutnosti investovat do interních prostředků a rozpočtů.
Přístup s více cloudy může být záměrná strategie společnosti nebo výsledek fúze a akvizice nebo nezávislých obchodních jednotek, které vyberou různé poskytovatele cloudu. V takovém případě použití více cloudových jezer vede k jednotnému uživatelskému prostředí ve všech cloudech. Tím se snižuje šíření systémů v rámci podniku, což zase snižuje dovednosti a požadavky na školení zaměstnanců zapojených do úloh řízených daty.
A konečně v síťovém světě s podnikovými obchodními procesy musí systémy spolupracovat co nejplynulejším způsobem. Stupeň interoperability je zde klíčovým kritériem a nejnovější data, jako základní prostředek jakékoli firmy, musí bezpečně přetékat mezi interními a externími partnery.