Efektivita provozu pro data lakehouse
Principy architektury pilíře efektivity provozu se vztahují na všechny provozní procesy, které zajišťují provoz lakehouse. Efektivita provozu se zabývá schopností efektivně provozovat jezero a popisuje, jak provozovat, spravovat a monitorovat jezero za účelem zajištění obchodní hodnoty.
Principy efektivity provozu
Optimalizace procesů sestavení a vydávání
Využijte osvědčené postupy softwarového inženýrství v celém prostředí lakehouse. Sestavte a uvolněte s využitím řetězců kontinuální integrace a kontinuálního doručování pro DevOps i MLOps.
automatizace nasazení a úloh
Automatizace nasazení a úloh pro lakehouse pomáhá standardizovat tyto procesy, eliminovat lidské chyby, zlepšit produktivitu a zajistit větší opakovatelnost. To zahrnuje použití "konfigurace jako kódu", aby se posunu konfigurace zabránilo, a "infrastruktura jako kód" k automatizaci procesu zřizování všech požadovaných "lakehouse" a cloudových služeb.
V případě strojového učení by procesy měly řídit automatizaci: Ne každý krok procesu může nebo by měl být automatizovaný. Lidé stále určují obchodní otázky a některé modely budou před nasazením vždy potřebovat lidský dohled. Proces vývoje je proto primární a každý modul v procesu by měl být podle potřeby automatizovaný. Toto umožňuje postupné rozšiřování automatizace a přizpůsobení.
Nastavení monitorování, upozorňování a protokolování
Úlohy v lakehouse obvykle integrují služby platformy Databricks a externí cloudové služby, například jako zdroje dat nebo cíle. K úspěšnému spuštění může dojít pouze v případě, že každá služba v řetězu spouštění funguje správně. Pokud tomu tak není, monitorování, upozorňování a protokolování jsou důležité k detekci a sledování problémů a pochopení chování systému.
Správa kapacity a kvót
U jakékoli služby spuštěné v cloudu vezměte v úvahu omezení, například limity přenosové rychlosti přístupu, počet instancí, počet uživatelů a požadavky na paměť. Před návrhem řešení musí být tyto limity srozumitelné.