Interoperabilita a použitelnost datového jezera
Tento článek se zabývá architektonickými principy pilíře interoperability a použitelnosti, které se týkají interakce lakehouse s uživateli a jinými systémy. Jednou ze základních myšlenek jezera je poskytnout skvělé uživatelské prostředí pro všechny osoby, které s ní pracují, a schopnost komunikovat s širokým ekosystémem externích systémů.
- interoperabilita je schopnost systému pracovat s jinými systémy a integrovat je s ostatními systémy. To znamená interakci mezi různými součástmi a produkty, pravděpodobně od více dodavatelů a mezi minulými a budoucími verzemi stejného produktu.
- Použitelnost je mírou toho, jak dobře systém umožňuje uživatelům bezpečně, účinně a efektivně provádět úkoly.
Dodržování zásad tohoto pilíře pomáhá:
- Dosažení konzistentního uživatelského prostředí a spolupráce
- Využijte synergie napříč cloudovými systémy.
- Zjednodušte integraci z a do jezera.
- Snižte náklady na trénování a povolení.
A nakonec vedou k rychlejšímu dosažení hodnoty.
Principy interoperability a použitelnosti
Definovat standardy pro integraci
Integrace má různé aspekty a dá se provádět mnoha různými způsoby. Aby se zabránilo šíření nástrojů a přístupů, musí být definovány osvědčené postupy a seznam dobře podporovaných a upřednostňovaných nástrojů a konektorů.
Jedním z klíčových principů architektury je modularita a volné párování, nikoli úzká integrace. To snižuje závislosti mezi komponentami a úlohami, pomáhá eliminovat vedlejší účinky a umožňuje nezávislý vývoj v různých časových škálách. Použijte datové sady a jejich schéma jako kontrakt. Oddělit úlohy, jako jsou práce s daty, jako je úprava a transformace dat do datového jezera, od úloh s přidanou hodnotou, například vytváření sestav, řídicích panelů a přípravy funkcí datových věd. Definujte centrální katalog dat s pokyny pro formáty dat, kvalitu dat a životní cyklus dat.
Používat otevřená rozhraní a otevírat datové formáty
Řešení se často vyvíjejí, kde se k datům dá přistupovat pouze prostřednictvím konkrétního systému. To může vést k uzamčení dodavatele, ale může se stát také obrovským nákladovým faktorem, pokud přístup k datům prostřednictvím tohoto systému podléhá licenčním poplatkům. Použití otevřených datových formátů a rozhraní pomáhá tomu zabránit. Zjednodušují také integraci se stávajícími systémy a otevírají ekosystém partnerů, kteří už integrovali své nástroje s lakehousem.
Pokud pro datové vědy používáte opensourcové ekosystémy, jako je Python nebo R, nebo Spark nebo ANSI SQL pro přístup k datům a řízení přístupových práv, budete mít snadnější čas najít pracovníky pro projekty. Zjednoduší také potenciální migrace na platformu a z ní.
zjednodušení implementace nového případu použití
Aby uživatelé mohli data v datovém jezeře využívat na maximum, musí být schopni snadno nasadit případy použití na platformě. Začíná se štíhlými procesy kolem přístupu k platformě a správy dat. Samoobslužný přístup k platformě například pomáhá zabránit tomu, aby se centrální tým stal kritickým bodem. Sdílená prostředí a předdefinované podrobné plány pro nasazení nových prostředí zajišťují, aby platforma byla rychle dostupná pro všechny podnikové uživatele.
zajištění konzistence a použitelnosti dat
Dvě důležité aktivity na datové platformě jsou publikování dat a využití dat. Z hlediska publikování by se data měla nabízet jako produkt. Vydavatelé musí dodržovat definovaný životní cyklus s ohledem na spotřebitele a data musí být jasně definovaná pomocí spravovaných schémat, popisů atd.
Je také důležité poskytovat sémanticky konzistentní data, aby spotřebitelé mohli snadno pochopit a správně kombinovat různé datové sady. Kromě toho musí být všechna data snadno zjistitelná a přístupná uživatelům prostřednictvím centrálního katalogu s správně kurátorovanými metadaty a rodokmenem dat.