Sdílet prostřednictvím


Aspekty návrhu pro samoobslužné datové platformy

Datová síť představuje zajímavý nový přístup k návrhu a vývoji architektury dat. Na rozdíl od tradiční architektury dat odděluje datová síť odpovědnost mezi funkčními datovými doménami , které se zaměřují na vytváření datových produktů a týmu platformy, který se zaměřuje na technické funkce. Toto oddělení odpovědností se musí promítnout na vaší platformě. Musíte zajistit rovnováhu mezi poskytováním funkcí, které jsou nezávislé na doméně, a umožnit týmům domény modelovat, zpracovávat a distribuovat svá data napříč vaší organizací.

Výběr správné úrovně členitosti domény a pravidel pro oddělení pomocí platforem není snadné. Tento článek obsahuje několik scénářů, které obsahují podrobné pokyny.

Analýzy v cloudovém měřítku

Pokud chcete vytvořit datovou síť s Azure, doporučujeme využít analýzy v cloudovém měřítku. Tato architektura je nasaditelná referenční architektura, která obsahuje opensourcové šablony a osvědčené postupy. Architektura analýzy na úrovni cloudu má dva hlavní stavební bloky, které jsou zásadní pro všechny volby nasazení:

  • Cílová zóna správy dat: Základ architektury dat. Obsahuje všechny důležité funkce pro správu dat, jako je katalog dat, rodokmen dat, katalog rozhraní API, správa hlavních dat atd.
  • Cílové zóny dat: Předplatná, která hostují vaše analytická řešení a řešení AI. Zahrnují klíčové funkce pro hostování analytické platformy.

Diagram znázorňující přehled analytické platformy v cloudovém měřítku, která obsahuje cílovou zónu správy dat a jednu cílovou zónu dat

Následující diagram poskytuje přehled analytické platformy v cloudovém měřítku s cílovou zónou správy dat a jednou cílovou zónou dat. V diagramu se nezobrazují všechny služby Azure. Zjednodušilo se zvýraznit základní koncepty organizace prostředků v této architektuře.

Cloudová analytická architektura není explicitní pro konkrétní typ architektury dat, kterou musíte zřídit. Můžete ho použít pro řadu běžných analytických řešení v cloudovém měřítku, včetně datových skladů (podnikových) datových skladů, datových jezer, domů datových jezer a datových sítí. Všechna ukázková řešení v tomto článku používají architekturu datových sítí.

Uvědomte si, že všechny architektury dodržují principy datových sítí: vlastnictví domény, data jako produkt, samoobslužná datová platforma a federované výpočetní zásady správného řízení. Všechny různé cesty můžou vést k datové síti. Neexistuje žádná jediná správná nebo špatná odpověď. Musíte udělat správný kompromis pro potřeby vaší organizace.

Cílová zóna s jedním datem

Nejjednodušší způsob nasazení pro vytvoření architektury datové sítě zahrnuje jednu cílovou zónu správy dat a jednu cílovou zónu dat. Architektura dat v takovém scénáři by vypadala takto:

Diagram znázorňující nejjednodušší možnou architekturu sítě dat, což je jedna cílová zóna správy dat a jedna cílová zóna dat

V tomto modelu se všechny funkční datové domény nacházejí ve stejné cílové zóně dat. Jedno předplatné obsahuje standardní sadu služeb. Skupiny prostředků oddělí různé datové domény a datové produkty. Standardní datové služby, jako jsou Azure Data Lake Store, Azure Logic Apps a Azure Synapse Analytics, platí pro všechny domény.

Všechny datové domény se řídí principy datových sítí: data se řídí vlastnictvím domény a s daty se zachází jako s produkty. Platforma je plně samoobslužná, i když existují omezené varianty služeb. Všechny domény by měly důrazně dodržovat stejné zásady správy dat a dodržovat je.

Tato možnost nasazení může být užitečná pro menší společnosti nebo projekty zeleného pole, které chtějí využít datovou síť, ale ne příliš komplikovat věci. Toto nasazení může být také výchozím bodem pro organizaci, která plánuje vytvořit něco složitějšího. V tomto případě naplánujte rozšíření do několika cílových zón později.

Zdrojové systémy zarovnané a cílové zóny zarovnané příjemcem

V předchozím modelu jsme nebrali v úvahu jiná předplatná ani místní aplikace. Předchozí model můžete mírně změnit tak, že přidáte cílovou zónu zarovnanou do zdrojového systému, abyste mohli spravovat všechna příchozí data. Onboarding dat je složitý proces, takže je užitečné mít dvě cílové zóny dat. Onboarding zůstává jednou z nejnáročnějších částí používání velkých dat. Onboarding také často vyžaduje další nástroje pro řešení integrace, protože jeho výzvy se liší od integrace. Pomáhá rozlišovat mezi poskytováním dat a využíváním dat.

Diagram znázorňující cílové zóny v souladu se zdrojovým systémem a spotřebiteli

V architektuře nalevo od tohoto diagramu usnadňují služby onboarding všech dat, jako je CDC, služby pro vyžádání rozhraní API nebo služby Data Lake pro dynamické sestavování datových sad. Služby v této platformě můžou načíst data z místních, cloudových prostředí nebo dodavatelů SaaS. Tento typ platformy má obvykle větší režii, protože existuje více párování s podkladovými provozními aplikacemi. Možná budete chtít zacházet jinak než s jakýmkoli využitím dat.

V architektuře napravo od diagramu organizace optimalizuje spotřebu a má služby zaměřené na přeměnu dat na hodnotu. Mezi tyto služby patří strojové učení, vytváření sestav atd.

Tyto domény architektury se řídí všemi principy datových sítí. Domény přebírají vlastnictví dat a mohou přímo distribuovat data do jiných domén.

Centra, obecné a speciální cílové zóny dat

Další možností nasazení je další iterace předchozího návrhu. Toto nasazení se řídí topologií sítě: data se distribuují prostřednictvím centrálního centra, ve kterém jsou data rozdělená na každou doménu, logicky izolovaná a neintegrovanou. Centrum tohoto modelu používá vlastní cílovou zónu (nezávislá na doméně) a může ji vlastnit centrální tým zásad správného řízení dat, který dohlíží na to, která data se distribuují do kterých dalších domén. Centrum také nese služby, které usnadňují onboarding dat.

Diagram znázorňující cílové zóny centra, obecného typu a speciálních dat

Pro domény, které vyžadují standardní služby pro využívání, používání, analýzu a vytváření nových dat, použijte obecnou cílovou zónu dat. Toto jedno předplatné obsahuje standardní sadu služeb. Využijte také virtualizaci dat, protože většina datových produktů je už v centru zachovaná a nepotřebujete více duplicit dat.

Toto nasazení umožňuje speciální zóny: další cílové zóny, které můžete zřídit, když není možné logicky seskupit domény. Můžou být potřeba, když se použijí regionální nebo právní hranice nebo pokud vaše domény mají jedinečné a kontrastní požadavky. Můžete je také potřebovat v situacích, kdy se pro zahraniční aktivity uplatňuje silná globální dceřiná společnost s výjimkami.

Pokud vaše organizace potřebuje řídit, která data se distribuují a využívají podle kterých domén, je vhodné nasazení centra. Je to také možnost, pokud řešíte obavy týkající se varianty času a nestálosti pro velké příjemce dat. Návrh datového produktu můžete silně standardizovat, což umožňuje vašim doménám časově cestovat a provádět opětovné nasazení. Tento model je zvlášť běžný v rámci finančního odvětví.

Funkční a regionální cílové zóny dat

Zřizování více cílových zón dat vám může pomoct seskupit funkční domény na základě soudržnosti a efektivity pro práci a sdílení dat. Všechny cílové zóny dat dodržují stejné auditování a ovládací prvky, ale stále můžete mít flexibilitu a změny návrhu mezi různými cílovými zónami dat.

Diagram znázorňující funkční a regionálně sladěné cílové zóny dat

Určete funkční datové domény, které chcete logicky seskupit pro sdílenou cílovou zónu dat. Pokud máte například místní hranice, můžete implementovat stejné šablony. Vlastnictví, zabezpečení nebo právní hranice vám můžou vynutit oddělení domén. Flexibilita, tempo změn a oddělení nebo prodej vašich schopností jsou také důležitými faktory, které je potřeba vzít v úvahu.

Další pokyny a osvědčené postupy najdete v datových doménách.

Jiné cílové zóny nejsou samostatné. Můžou se připojit k datovým jezerům hostovaným v jiných zónách. To umožňuje doménám spolupracovat v rámci vašeho podniku. Můžete také použít polyglotní trvalost pro kombinaci různých technologií úložiště dat. Polyglotní trvalost umožňuje vašim doménám přímo číst data z jiných domén bez duplikování dat.

Při nasazování více cílových zón dat mějte na výběr, že ke každé cílové zóně dat jsou připojené režijní náklady na správu. Mezi všemi cílovými zónami dat musíte použít partnerský vztah virtuálních sítí, musíte spravovat další privátní koncové body atd.

Nasazení více cílových zón dat je dobrou volbou, pokud je vaše datová architektura velká. Do architektury můžete přidat další cílové zóny, které řeší běžné potřeby různých domén. Tyto další cílové zóny využívají peering virtuální sítě k připojení k cílové zóně správy dat i ke všem ostatním cílovým zónám. Peering umožňuje sdílet datové sady a prostředky napříč cílovými zónami. Rozdělení dat mezi samostatné zóny vám umožní rozdělit úlohy mezi předplatná a prostředky Azure. Tento přístup pomáhá ekologicky implementovat datovou síť.

Velké podniky vyžadující různé zóny správy dat

Velké podniky provozující v globálním měřítku můžou mít kontrastní požadavky na správu dat mezi různými částmi organizace. Pokud chcete tento problém vyřešit, můžete společně nasadit několik zón správy dat a cílových zón dat. Následující diagram znázorňuje příklad tohoto typu architektury:

Diagram znázorňující velké podniky, které vyžadují různé zóny správy dat

Cílové zóny správy dat by měly ospravedlnit režii a složitost integrace. Například jiná cílová zóna správy dat může dávat smysl pro situace, kdy nesmí být data vaší organizace (meta) viditelná kýmkoli mimo vaši organizaci.

Závěr

Přechod k datovým sítím je kulturní posun zahrnující nuance, kompromisy a aspekty. K získání osvědčených postupů a spustitelných prostředků můžete použít analýzy na úrovni cloudu. Referenční architektury tohoto článku nabízejí výchozí body pro zahájení implementace.

Další krok