Popsat architekturu medailiónu

Dokončeno

Datové jezerahouse v prostředcích infrastruktury jsou založené na formátu Delta Lake, který nativně podporuje transakce ACID (Atomicity, Consistency, Isolation, Durability). V rámci této architektury je architektura medailonu doporučeným vzorem návrhu dat sloužícím k logickému uspořádání dat v jezeře. Cílem je zlepšit kvalitu dat při procházení různými vrstvami. Architektura má obvykle tři vrstvy – bronzovou (nezpracovanou), stříbro (ověřeno) a zlato (obohacené), přičemž každá představuje vyšší úroveň kvality dat. Některým lidem se také říká architektura s více segmenty směrování, což znamená, že data se můžou podle potřeby přesouvat mezi vrstvami.

Tato architektura zajišťuje, že data jsou spolehlivá a konzistentní, protože procházejí různými kontrolami a změnami. Zaručuje také, že jsou data bezpečně uložená způsobem, který usnadňuje a rychlejší analýzu.

Architektura medailonu doplňuje jiné metody organizace dat, nikoli jejich nahrazení. Architekturu medailonu si můžete představit jako architekturu pro čištění dat, nikoli architekturu nebo model dat. Zajišťuje kompatibilitu a flexibilitu pro firmy, aby mohly využívat své výhody spolu se stávajícími datovými modely, což umožňuje přizpůsobit řešení dat a zachovat odborné znalosti a zároveň zůstat přizpůsobitelné v neustále se měnící oblasti dat.

Diagram architektury medailiónu, kde data proudí ze zdroje do bronzové, stříbrné a zlaté vrstvy.

Vysvětlení formátu architektury medallionu

Bronzová vrstva

Bronzová nebo nezpracovaná vrstva architektury medailiónu je první vrstvou jezera. Jedná se o cílovou zónu pro všechna data, ať už jsou strukturovaná, částečně strukturovaná nebo nestrukturovaná. Data jsou uložená v původním formátu a v něm nejsou provedeny žádné změny.

Stříbrná vrstva

Stříbrná nebo ověřená vrstva je druhou vrstvou jezerahouse. Tady ověříte a zpřesníte svá data. Mezi typické aktivity ve stříbrné vrstvě patří kombinování a slučování dat a vynucování ověřovacích pravidel dat, jako je odebrání hodnot null a odstranění duplicitních dat. Stříbrnou vrstvu si můžete představit jako centrální úložiště v rámci organizace nebo týmu, kde jsou data uložená v konzistentním formátu a můžou k němu přistupovat více týmů. Ve stříbrné vrstvě, kterou vyčistit data dostatečně, aby všechno bylo na jednom místě a připravené k upřesnění a modelování ve zlaté vrstvě.

Zlatá vrstva

Zlatá nebo rozšířená vrstva je třetí vrstvou jezera. Ve zlaté vrstvě procházejí data dalším vylepšením, aby byla v souladu s konkrétními obchodními a analytickými potřebami. To může zahrnovat agregaci dat na určitou členitost, například denní nebo hodinovou, nebo její rozšiřování externími informacemi. Jakmile data dosáhnou zlaté fáze, jsou připravená k použití podřízenými týmy, včetně analýz, datových věd nebo MLOps.

Přizpůsobení architektury medailiónu

V závislosti na konkrétním případu použití vaší organizace možná budete potřebovat více vrstev. Před transformací do bronzové vrstvy můžete mít například další "nezpracovanou" vrstvu pro cílová data v určitém formátu. Nebo můžete mít vrstvu platiny pro data, která jsou dále zpřesněna a rozšířena pro konkrétní případ použití. Bez ohledu na názvy a počet vrstev je architektura medailonu flexibilní a je možné ji přizpůsobit tak, aby vyhovovala konkrétním požadavkům vaší organizace.

Přesun dat mezi vrstvami v prostředcích infrastruktury

Přesouvání dat mezi vrstvami medallionu se zpřesňuje, uspořádá a připraví na podřízené datové aktivity. V jezeře Fabricu existuje více než jeden způsob, jak přesouvat data mezi vrstvami a zajistit, abyste mohli zvolit metodu, která funguje pro váš tým.

Při rozhodování o přesunu a transformaci dat mezi vrstvami je potřeba vzít v úvahu několik věcí.

  • S kolika daty pracujete?
  • Jak složité jsou transformace, které potřebujete udělat?
  • Jak často budete muset přesouvat data mezi vrstvami?
  • S jakými nástroji nejlíbíte?

Pochopení rozdílu mezi transformací dat a orchestrací dat vám pomůže vybrat správné nástroje pro úlohu v rámci infrastruktury.

Transformace dat zahrnuje změnu struktury nebo obsahu dat tak, aby splňovala konkrétní požadavky. Mezi nástroje pro transformaci dat v prostředcích infrastruktury patří toky dat (Gen2) a poznámkové bloky. Toky dat jsou skvělou volbou pro menší sémantické modely a jednoduché transformace. Poznámkové bloky jsou lepší volbou pro větší sémantické modely a složitější transformace. Poznámkové bloky také umožňují ukládat transformovaná data jako spravovanou tabulku Delta v jezeře připravené k vytváření sestav.

Orchestrace dat odkazuje na koordinaci a správu více procesů souvisejících s daty a zajišťuje jejich spolupráci na dosažení požadovaného výsledku. Primárním nástrojem pro orchestraci dat v prostředcích infrastruktury jsou kanály. Kanál je řada kroků, které přesouvají data z jednoho místa do druhého, v tomto případě z jedné vrstvy architektury medailonu na další. Kanály je možné automatizovat tak, aby běžely podle plánu nebo aktivovaly událostí.