Sdílet prostřednictvím


Škálování analýz v cloudu v Azure

Škálovatelná datová platforma je důležitá pro umožnění rychlého růstu dat. Velké objemy dat se generují každou sekundu po celém světě. Očekává se, že množství dostupných dat bude v příštích několika letech exponenciálně růst. S rostoucí rychlostí generování dat se také zvyšuje rychlost přesunu dat.

Bez ohledu na to, kolik dat máte, vyžadují uživatelé rychlé odpovědi na dotazy. Očekávají, že budou čekat minuty, ne hodiny, na výsledky. Tento článek vysvětluje, jak můžete škálovat řešení analýzy cloudového škálování Azure a pokračovat v plnění požadavků uživatelů na rychlost.

Úvod

Mnoho podniků má monolitické datové platformy. Tyto monolity jsou vytvořeny okolo jednoho účtu Azure Data Lake Gen2, a někdy dokonce jen jednoho kontejneru úložiště. Jedno předplatné Azure se často používá pro všechny úlohy související s datovou platformou. Škálování na úrovni předplatného chybí ve většině architekturních platforem, což může bránit pokračování přechodu na Azure, pokud uživatelé narazí na některé z omezení předplatného Azure nebo na úrovni služeb. I když některá omezení představují měkké limity, může jejich dosažení mít na datovou platformu významný negativní vliv.

Při strukturování datové platformy zvažte strukturu vaší organizace. Poznamenejte si vlastnictví dat a funkční zodpovědnosti vašich týmů. Pokud vaše organizace dává týmům velký stupeň samostatnosti a distribuovaného vlastnictví, je nejlepší volbou architektura datové sítě.

Vyhněte se situacím, kdy různé týmy zodpovídají za různé úkoly řešení – úkoly, jako je příjem dat, čištění, agregace a obsluha. V závislosti na několika týmech může dojít k výrazné ztrátě rychlosti. Pokud například spotřebitelé dat v obslužné vrstvě potřebují připojit nové datové prostředky nebo implementovat funkční změny pro konkrétní datový prostředek, musí projít vícekrokovým procesem. V tomto příkladu jsou tyto kroky:

  1. Příjemce dat odešle lístek každému týmu zodpovědnému za etapu datového potrubí.
  2. Týmy musí spolupracovat na synchronizaci, protože vrstvy jsou vzájemně propojené. Nové služby vyžadují změny vrstvy čištění dat, což vede ke změnám ve vrstvě agregace dat, což vede ke změnám v obslužné vrstvě. Změny můžou mít vliv na každou fázi kanálu.
  3. Je obtížné, aby týmy viděly potenciální účinky zpracování změn, protože nemají přehled o celém kompletním životním cyklu. Musí spolupracovat na návrhu dobře definovaného plánu uvedení, který minimalizuje dopady na stávající uživatele a kanály. Tato správa závislostí zvyšuje režijní náklady na správu.
  4. Týmy zpravidla nejsou odborníky na datový prostředek, který spotřebitel dat požaduje. Aby bylo možné porozumět novým funkcím datové sady nebo hodnotám parametrů, musí se obrátit na odborníka.
  5. Po implementaci všech změn se příjemci dat oznámí, že nový datový prostředek je připravený k použití.

Každá velká organizace má tisíce příjemců dat. Složitý proces, jako je ten, který jsme popsali, výrazně snižuje rychlost ve velkých architekturách, protože centralizované týmy se stávají kritickým bodem obchodních jednotek. Výsledkem je méně inovací a omezená efektivita. Obchodní jednotky se můžou rozhodnout, že službu opustí a místo toho vytvoří vlastní datovou platformu.

Metody škálování

diagram cílové zóny správy dat a více cílových zón dat

Analýzy v cloudovém měřítku řeší problémy se škálováním pomocí dvou základních konceptů:

  • Zóny příjmu dat pro škálování
  • Datové produkty nebo integrace dat pro škálování, aby bylo možné distribuované a decentralizované vlastnictví dat

Můžete nasadit jednu cílovou zónu dat nebo několik cílových zón. Cílové zóny dat umožňují zjistit a spravovat data připojením k cílové zóně správy dat. Každá cílová zóna správy dat je v rámci jednoho předplatného Azure.

Předplatná jsou jednotkami správy, fakturace a škálování služby Azure. Hrají důležitou roli ve vašem rozsáhlém plánu přechodu na Azure.

Škálování s využitím cílových zón dat

Centrální koncepty analýzy v cloudovém měřítku jsou Microsoft Purview, Azure Databricks Unity Catalog, pokud používáte Azure Databricks, cílovou zónu správy dat a cílovou zónu dat. Každý z nich byste měli umístit do vlastního předplatného Azure. Oddělení umožňuje jasně oddělit povinnosti, dodržovat princip nejnižších oprávnění a částečně řešit problémy se škálováním předplatného, které jsme zmínili dříve. Minimální nastavení analýzy v cloudu zahrnuje jednu cílovou zónu dat a jednu cílovou zónu správy dat.

Minimální nastavení ale nestačí pro nasazení rozsáhlých datových platforem. Společnosti vytvářejí rozsáhlé platformy a investují do konzistentního a efektivního škálování svých dat a analýz v průběhu času. Při řešení omezení na úrovni předplatného používá analýza v cloudu předplatná jako jednotku škálování, jak je popsáno v cílových zónách Azure. Tato technika umožňuje zvýšit nároky na datovou platformu přidáním dalších cílových zón dat do architektury. Přijetí této techniky řeší také problém jednoho Azure Data Lake Gen2, který se používá pro celou organizaci, protože každá cílová zóna dat zahrnuje tři datová jezera. Projekty a aktivity z více domén je možné distribuovat napříč více než jedním předplatným Azure, a tím zajistit větší škálovatelnost.

Než implementujete architekturu analýzy na úrovni cloudu, rozhodněte se, kolik cílových zón dat vaše organizace vyžaduje. Volba správného řešení vytvoří základ efektivní a efektivní datové platformy.

Počet požadovaných přistávacích zón závisí na mnoha faktorech, zejména:

  • Organizační sladění, například kolik obchodních jednotek potřebuje vlastní cílovou zónu dat
  • Provozní aspekty, jako je například sladění provozních prostředků a prostředků, které jsou specifické pro obchodní jednotku.

Použití správného modelu cílové zóny dat minimalizuje budoucí úsilí o přesun datových produktů a datových prostředků z jedné cílové zóny do jiné. V budoucnu vám také pomůže efektivně a konzistentně škálovat velké objemy dat a analýzy.

Při rozhodování o počtu cílových zón dat, které se mají nasadit, zvažte následující faktory.

Faktor Popis
Organizační struktura a vlastnictví dat Zvažte, jak je vaše organizace strukturovaná a jak jsou ve vaší organizaci vlastněná data.
Oblast a umístění Pokud nasadíte ve více oblastech, rozhodněte se, které oblasti mají hostovat datové zóny. Nezapomeňte dodržovat všechny požadavky na uložení dat.
Kvóty Kvóty předplatného nejsou záruky kapacity a použijí se na základě jednotlivých oblastí.
Suverenita dat Kvůli zákonům o suverenitě dat musí být data uložená v konkrétní oblasti a dodržovat zásady specifické pro jednotlivé oblasti.
Zásady Azure Cílové zóny dat musí dodržovat požadavky různých zásad Azure.
Hranice správy Předplatné poskytují hranici pro řízení a izolaci, která jasně odděluje záležitosti.
Síťování Každá cílová zóna má virtuální síť. Vzhledem k tomu, že virtuální síť se nachází v jedné oblasti, každá nová oblast vyžaduje novou cílovou zónu. Virtuální sítě musí být virtuální sítě typu peer, aby umožnily mezi doménami vzájemnou komunikaci.
Hranice Předplatné má omezení. Když máte několik předplatných, můžete zmírnit nebezpečí dosažení těchto limitů.
Alokace nákladů Zvažte, jestli sdílené služby, jako jsou účty úložiště, které jsou placené centrálně, musí být rozdělené podle obchodní jednotky nebo domény. Použití samostatného předplatného vytvoří hranici pro alokaci nákladů. Stejné funkce můžete dosáhnout pomocí značek.
Klasifikace dat a vysoce důvěrná data Mechanismy zabezpečení můžou ovlivnit vývoj datových produktů a použitelnost datové platformy. Zvažte klasifikace dat a rozhodněte se, jestli vysoce důvěrné datové sady vyžadují zvláštní zacházení, jako je přístup za běhu, klíče spravované zákazníkem (CMK), jemně odstupňované řízení sítě nebo více šifrování.
Jiné právní nebo bezpečnostní důsledky Zvažte, jestli existují nějaké další právní nebo bezpečnostní požadavky, které vyžadují logické nebo fyzické oddělení dat.

Pokud implementujete architekturu datových sítí, zvažte při rozhodování, jak distribuovat cílové zóny dat a datové domény následující faktory.

Faktor Popis
Datové domény Zvažte datové domény, které vaše organizace používá, a rozhodněte se o datových doménách pro vaši datovou platformu. Zvažte velikost jednotlivých datových domén. Další informace najdete v tématu Co jsou datové domény?
Latence Domény, které spolupracují na velkých objemech dat, můžou přenášet velké množství dat napříč cílovými zónami. Zvažte přidělení domén ve stejné cílové zóně nebo oblasti. Oddělením se zvyšuje latence a můžou se zvýšit náklady v doménách napříč oblastmi.
Bezpečnost Některá nasazení nebo konfigurace služby vyžadují v předplatném zvýšená oprávnění. Udělení těchto oprávnění uživateli v jedné doméně implicitně dává uživateli stejná oprávnění v jiných doménách ve stejném předplatném.

Další aspekty najdete v doprovodných materiálech architektury přechodu na cloud pro předplatná.

Mnoho organizací chce efektivní škálování podnikové datové platformy. Obchodní jednotky by měly být schopné vytvářet vlastní datová řešení a aplikace, aby splňovaly jedinečné požadavky. Poskytnutí této schopnosti může být výzvou, protože mnoho stávajících datových platforem není postavené na konceptech škálovatelnosti a decentralizovaného vlastnictví. Tento nedostatek je jasně vidět v architektuře, týmové struktuře a provozním modelu těchto datových platforem.

Cílové zóny dat nevytvoří v rámci vaší organizace datové sila. Doporučené nastavení sítě pro analýzy v cloudovém měřítku umožňuje zabezpečené a místní sdílení dat napříč cílovými zónami, které zase umožňuje inovace napříč datovými doménami a obchodními jednotkami. Další informace najdete v tématu Aspekty architektury sítě.

Totéž platí pro vrstvu identity. Pokud používáte jednoho tenanta Microsoft Entra, můžete identitám udělit přístup k datovým prostředkům v několika cílových zónách dat. Další informace o procesu autorizace uživatelů a identit najdete v tématu správa přístupu k datům.

Poznámka

Pokud máte více cílových zón dat, můžou se každá zóna připojit k datům hostovaným v jiných zónách. To umožňuje skupinám spolupracovat v rámci vaší firmy.

Analýzy v cloudovém měřítku používají společnou architekturu pro zajištění konzistentních zásad správného řízení. Vaše architektura definuje základní možnosti a zásady. Všechny cílové zóny dat dodržují stejné auditování a ovládací prvky. Týmy mohou vytvářet datové toky, přijímat zdroje a vytvářet datové produkty, jako jsou sestavy a řídicí panely. Týmy také můžou podle potřeby provádět analýzu Sparku nebo SQL. Možnosti cílové zóny dat můžete rozšířit přidáním služeb do funkce v zásadách. Tým může například přidat grafový modul třetí strany pro řešení obchodních požadavků.

Analýza v cloudovém měřítku klade důraz na centrální kataloging a klasifikaci, aby chránila data a umožnila různým skupinám zjišťovat datové produkty.

Opatrnost

Nedoporučujeme dotazovat se na data napříč oblastmi. Místo toho se ujistěte, že data jsou blíže výpočetním zdrojům, které je používají, a při tom respektujte regionální hranice.

Architektura analýzy na úrovni cloudu a koncept cílových zón dat umožňují vaší organizaci snadno zvýšit velikost datové platformy v průběhu času. Do fázovaného přístupu můžete přidat další cílové zóny dat. Vaši zákazníci nemusí mít nejprve více cílových zón. Když tuto architekturu přijmete, upřednostníte několik cílových zón dat a datových produktů, které obsahují. Správné stanovení priorit pomáhá zajistit úspěch nasazení analýz na úrovni cloudu.

Škálování s využitím datových aplikací

V rámci každé cílové zóny může vaše organizace škálovat pomocí datových aplikací. Datové aplikace jsou jednotky nebo komponenty architektury dat, které zapouzdřují funkce, které poskytují datové produkty optimalizované pro čtení pro spotřebu jinými datovými aplikacemi. Datové aplikace v Azure jsou prostředí ve formě skupin prostředků, které umožňují křížovým týmům implementovat datová řešení a úlohy. Přidružený tým se stará o kompletní životní cyklus datového řešení, včetně příjmu dat, čištění, agregace a obsluhy úkolů.

Analýzy na úrovni cloudu řeší problémy s integrací dat a zodpovědností, které jsme probírali dříve. Místo monolitických funkčních zodpovědností za ingestování tabulek a integraci zdrojového systému poskytuje referenční návrh distribuovanou architekturu řízenou datovými doménami. Mezifunkční týmy přebírají kompletní funkční odpovědnost a vlastnictví oboru dat.

Místo centralizovaného technického zásobníku a týmu, který zodpovídá za všechny úkoly pracovního postupu zpracování dat, můžete distribuovat kompletní odpovědnost napříč několika autonomními týmy pro integraci dat napříč různými funkcemi. Každý tým vlastní schopnost domény nebo subdomény a je povzbuzován, aby poskytoval datové sady podle požadavků spotřebitelů dat.

Tyto architektonické rozdíly vedou ke zvýšení rychlosti datové platformy. Vaši spotřebitelé dat už nemusí spoléhat na sadu centralizovaných týmů nebo bojovat za to, aby jejich požadované změny měly přednost. Vzhledem k tomu, že menší týmy přebírají vlastnictví kompletního pracovního postupu integrace, smyčka zpětné vazby mezi zprostředkovatelem dat a příjemcem dat je kratší. Výsledkem tohoto přístupu je rychlejší stanovení priorit, rychlejší vývojové cykly a agilnější proces vývoje. Vaše týmy už nemusí synchronizovat procesy a plány vydávání verzí mezi sebou, protože tým pro integraci mezi funkcemi má plné povědomí o kompletní technické vrstvě a dopadech změn. Pomocí postupů softwarového inženýrství může spouštět testy jednotek a integrace, aby se minimalizoval celkový dopad na uživatele.

V ideálním případě vlastní tým, který vlastní systémy pro integraci dat, vlastní také zdrojové systémy. Tento tým by se měl skládat z datových inženýrů, kteří pracují na zdrojových systémech, odborníků na danou problematiku (SM) pro datové sady, cloudové inženýry a vlastníky datových produktů. Vytvoření tohoto typu křížově funkčního týmu snižuje množství komunikace s externími týmy a je nezbytné při vývoji kompletního technologického zásobníku od infrastruktury ke skutečným datovým kanálům.

Základem datové platformy jsou datové sady integrované ze zdrojových systémů. Tyto datové sady umožňují týmům datových produktů inovovat tabulky obchodních faktů a zlepšit rozhodovací a obchodní procesy. Týmy integrace dat a týmy datových produktů by měly zákazníkům nabízet smlouvy SLA a zajistit, aby byly splněny všechny smlouvy. Nabízené smlouvy SLA můžou souviset s kvalitou dat, včasností, chybovostmi, dostupností a dalšími úlohami.

Shrnutí

Díky mechanismům škálování architektury analýzy v cloudu může vaše organizace v průběhu času rozšířit svá datová aktiva v Azure a vyhnout se běžným technickým omezením. Obě metody škálování popsané v tomto článku vám pomůžou překonat různé technické složitosti a lze je použít jednoduchým a efektivním způsobem.

Další kroky