Sdílet prostřednictvím


Interoperabilita a použitelnost datového jezera

Tento článek se zabývá architektonickými principy pilíře interoperability a použitelnosti, které se týkají interakce lakehouse s uživateli a jinými systémy. Jednou ze základních myšlenek jezera je poskytnout skvělé uživatelské prostředí pro všechny osoby, které s ní pracují, a schopnost komunikovat s širokým ekosystémem externích systémů.

  • interoperabilita je schopnost systému pracovat s jinými systémy a integrovat je s ostatními systémy. To znamená interakci mezi různými součástmi a produkty, pravděpodobně od více dodavatelů a mezi minulými a budoucími verzemi stejného produktu.
  • Použitelnost je mírou toho, jak dobře systém umožňuje uživatelům bezpečně, účinně a efektivně provádět úkoly.

Diagram architektury lakehouse pro interoperabilitu a použitelnost Databricks.

Dodržování zásad tohoto pilíře pomáhá:

  • Dosažení konzistentního uživatelského prostředí a spolupráce
  • Využijte synergie napříč cloudovými systémy.
  • Zjednodušte integraci z a do jezera.
  • Snižte náklady na trénování a povolení.

A nakonec vedou k rychlejšímu dosažení hodnoty.

Principy interoperability a použitelnosti

  1. Definovat standardy pro integraci

    Integrace má různé aspekty a dá se provádět mnoha různými způsoby. Aby se zabránilo šíření nástrojů a přístupů, musí být definovány osvědčené postupy a seznam dobře podporovaných a upřednostňovaných nástrojů a konektorů.

    Jedním z klíčových principů architektury je modularita a volné párování, nikoli úzká integrace. To snižuje závislosti mezi komponentami a úlohami, pomáhá eliminovat vedlejší účinky a umožňuje nezávislý vývoj v různých časových škálách. Použijte datové sady a jejich schéma jako kontrakt. Oddělit úlohy, jako jsou práce s daty, jako je úprava a transformace dat do datového jezera, od úloh s přidanou hodnotou, například vytváření sestav, řídicích panelů a přípravy funkcí datových věd. Definujte centrální katalog dat s pokyny pro formáty dat, kvalitu dat a životní cyklus dat.

  2. Používat otevřená rozhraní a otevírat datové formáty

    Řešení se často vyvíjejí, kde se k datům dá přistupovat pouze prostřednictvím konkrétního systému. To může vést k uzamčení dodavatele, ale může se stát také obrovským nákladovým faktorem, pokud přístup k datům prostřednictvím tohoto systému podléhá licenčním poplatkům. Použití otevřených datových formátů a rozhraní pomáhá tomu zabránit. Zjednodušují také integraci se stávajícími systémy a otevírají ekosystém partnerů, kteří už integrovali své nástroje s lakehousem.

    Pokud pro datové vědy používáte opensourcové ekosystémy, jako je Python nebo R, nebo Spark nebo ANSI SQL pro přístup k datům a řízení přístupových práv, budete mít snadnější čas najít pracovníky pro projekty. Zjednoduší také potenciální migrace na platformu a z ní.

  3. zjednodušení implementace nového případu použití

    Aby uživatelé mohli data v datovém jezeře využívat na maximum, musí být schopni snadno nasadit případy použití na platformě. Začíná se štíhlými procesy kolem přístupu k platformě a správy dat. Samoobslužný přístup k platformě například pomáhá zabránit tomu, aby se centrální tým stal kritickým bodem. Sdílená prostředí a předdefinované podrobné plány pro nasazení nových prostředí zajišťují, aby platforma byla rychle dostupná pro všechny podnikové uživatele.

  4. zajištění konzistence a použitelnosti dat

    Dvě důležité aktivity na datové platformě jsou publikování dat a využití dat. Z hlediska publikování by se data měla nabízet jako produkt. Vydavatelé musí dodržovat definovaný životní cyklus s ohledem na spotřebitele a data musí být jasně definovaná pomocí spravovaných schémat, popisů atd.

    Je také důležité poskytovat sémanticky konzistentní data, aby spotřebitelé mohli snadno pochopit a správně kombinovat různé datové sady. Kromě toho musí být všechna data snadno zjistitelná a přístupná uživatelům prostřednictvím centrálního katalogu s správně kurátorovanými metadaty a rodokmenem dat.

Další: Osvědčené postupy pro interoperabilitu a použitelnost

Viz Osvědčené postupy pro interoperabilitu a použitelnost.