Cílové zóny dat

Článek
12/15/2024

Cílové zóny dat jsou připojené k cílové zóně správy dat partnerským vztahem virtuální sítě nebo privátními koncovými body. Každá cílová zóna dat se považuje za cílovou zónu související s architekturou cílové zóny Azure.

Důležitý

Před zřízením cílové zóny dat se ujistěte, že je váš provozní model DevOps a CI/CD zavedený a nasadí se cílová zóna správy dat.

Každá cílová zóna dat má několik vrstev, které umožňují flexibilitu pro integraci dat služby a datové aplikace, které obsahuje. Novou cílovou zónu dat můžete nasadit se standardní sadou služeb, které cílové zóně dat umožňují začít ingestovat a analyzovat data.

Typické předplatné Azure přidružené k cílové zóně dat má následující strukturu:

Vrstva	Vyžadováno	Skupiny prostředků
Vrstva služeb platformy	Ano	sítě zabezpečení
základní služby	Ano	úložiště sdílené integrační runtime správa externí úložiště Příjem dat Sdílené aplikace
aplikace dat	Volitelný	Datová aplikace (1 nebo více)
vytváření sestav a vizualizace	Volitelný	reportování a vizualizace

Poznámka

I když je vrstva základních služeb označená jako povinná, nemusí být pro vaši cílovou zónu dat nutné všechny skupiny prostředků a služby zahrnuté v tomto článku.

Architektura cílové zóny dat

Architektura cílové zóny dat znázorňuje vrstvy, jejich skupiny prostředků a služby, které každá skupina prostředků obsahuje. Architektura nabízí přehled všech skupin a rolí spojených s přistávací zónou dat a rozsah jejich přístupu k řídicím plochám a datovým plochám. Architektura také ilustruje, jak každá vrstva odpovídá zodpovědnostem provozního modelu.

Spropitné

Před nasazením cílové zóny dat se ujistěte, že zvažte počet počátečních cílových zón dat, které chcete nasadit.

Služby platformy

Vrstva služeb platformy zahrnuje služby potřebné k zajištění připojení a pozorovatelnosti cílové zóny dat v kontextu analýzy v cloudovém měřítku. Následující tabulka uvádí doporučené skupiny prostředků.

Skupina prostředků	Povinný	Popis
`network-rg`	Ano	Síťování
`security-rg`	Ano	Zabezpečení a monitorování

Síťování

Skupina síťových prostředků obsahuje služby připojení, včetně virtuálních sítí Azure, skupin zabezpečení sítě (NSG) a směrovacích tabulek. Všechny tyto služby jsou nasazeny do jediné skupiny prostředků.

Virtuální síť cílové zóny dat je automaticky v partnerském vztahu s virtuální sítí cílové zóny správy dat a virtuálnísítí předplatného připojení .

Zabezpečení a monitorování

Skupina prostředků zabezpečení a monitorování zahrnuje Azure Monitor a Microsoft Defender pro Cloud ke shromažďování telemetrie služeb, definování kritérií monitorování a upozornění a použití zásad a skenování u služeb.

Základní služby

Vrstva klíčových služeb zahrnuje základní služby potřebné k umožnění cílové zóny dat v kontextu analytiky v cloudovém rozsahu. Následující tabulka uvádí skupiny prostředků, které poskytují standardní sadu dostupných služeb v každé cílové zóně dat, kterou nasadíte.

Skupina prostředků	Povinný	Popis
`storage-rg`	Ano	Služby datového jezera
`runtimes-rg`	Ano	Moduly runtime pro sdílenou integraci
`mgmt-rg`	Ano	Agenti CI/CD
`external-data-rg`	Ano	Externí úložiště dat
`data-ingestion-rg`	Volitelný	Služby sdíleného příjmu dat
`shared-applications-rg`	Volitelný	Sdílené aplikace (Synapse nebo Databricks)

Skladování

Jak je znázorněno v diagramu, tři účty Azure Data Lake Storage Gen2 jsou zřízeny v jedné skupině prostředků služby Data Lake Services. Data transformovaná v různých fázích se ukládají do jednoho z datových jezer cílové zóny vašich dat. Data jsou dostupná pro využití analytickými týmy, datovými vědami a vizualizacemi.

Vrstvy Data Lake používají různé terminologie v závislosti na technologii a dodavateli. Tato tabulka obsahuje pokyny k použití podmínek pro analýzy v cloudovém měřítku:

Analýzy v cloudovém měřítku	Delta Lake	Další podmínky	Popis
Syrový	Bronz	Přistání a shoda	Datové tabulky příjmu
Obohacený	Stříbro	Zóna standardizace	Upřesňující tabulky Uložená úplná entita, sady záznamů připravené pro spotřebu ze systémů záznamu.
Vybrané	Zlato	Zóna produktu	Funkce nebo agregované tabulky Primární zóna pro aplikace, týmy a uživatele pro využívání datových produktů
Rozvoj	--	Rozvojová zóna	Prostor pro datové inženýry a vědce, který zahrnuje analytický sandbox a zónu pro vývoj produktů.

Poznámka

V předchozím diagramu má každá vstupní zóna dat tři úložiště Data Lake. V závislosti na vašich požadavcích se ale můžete rozhodnout konsolidovat nezpracované, rozšířené a kurátorované vrstvy do jednoho účtu úložiště a udržovat další účet úložiště označovaný jako pracovní prostor pro příjemce dat, aby mohli přinést další užitečné datové produkty.

Další informace najdete tady:

Moduly runtime pro sdílenou integraci

Kanály Azure Data Factory a Azure Synapse Analytics používají prostředí Integration Runtime (IR) k bezpečnému přístupu ke zdrojům dat v partnerských nebo izolovaných sítích. Sdílené provozní prostředí integrace by se mělo nasadit na virtuální počítač (nebo Azure Virtual Machine Scale Sets) ve skupině prostředků sdíleného provozního prostředí Integration Runtime.

Povolit sdílenou skupinu prostředků.

Ve skupině prostředků sdílené integrace vaší cílové zóny dat vytvořte aspoň jednu službu Azure Data Factory. Použijte ho jenom pro propojení sdíleného místního prostředí Integration Runtime, ne pro datové kanály.
Vytvoření a konfigurace místního prostředí Integration Runtime na virtuálním počítači.
Přidružte místní prostředí Integration Runtime k datovým továrnám Azure v cílových zónách dat.
Pomocí skriptů PowerShellu můžete pravidelně aktualizovat lokálně hostované prostředí Integration Runtime.

Poznámka

Nasazení popisuje nasazení jednoho virtuálního počítače pomocí místního prostředí Integration Runtime. Místní prostředí Integration Runtime můžete přidružit k několika místním virtuálním počítačům nebo v Azure. Tyto počítače se nazývají uzly a můžete mít až čtyři uzly přidružené k místnímu prostředí Integration Runtime. Výhody mít více uzlů jsou:

Vyšší dostupnost místního prostředí Integration Runtime, takže už není kritickým bodem selhání ve vaší datové aplikaci nebo v orchestraci integrace cloudových dat.
Zvýšení výkonu a propustnosti při přesunu dat mezi místními a cloudovými datovými službami. Získejte další informace o porovnání výkonu .

Můžete přidružit více uzlů instalací místního softwaru Integration Runtime z webu Download Center. Pak ho zaregistrujte pomocí některého z ověřovacích klíčů získaných z rutiny New-AzDataFactoryV2IntegrationRuntimeKey, jak je popsáno v kurzu .

Další informace najdete v Azure Data Factory vysoká dostupnost a škálovatelnost.

Důležitý

Nasaďte sdílené integrační runtime co nejblíže zdroji dat. Prostředí Integration Runtime můžete nasadit do cílové zóny dat, do cloudů třetích stran nebo do privátního cloudu za předpokladu, že má virtuální počítač připojení k požadovaným zdrojům dat.

Řízení

Agenti CI/CD běží na virtuálních počítačích a pomáhají nasadit artefakty z úložiště zdrojového kódu, včetně datových aplikací a změn cílové zóny dat.

Další informace najdete v části agenti Azure Pipelines.

Externí úložiště

Vydavatelé partnerských dat potřebují přenést data do vaší platformy, aby je týmy pracující s datovými aplikacemi mohly načítat do svých datových jezer. Můžete také mít interní nebo externí zdroje dat, které nepodporují požadavky na připojení nebo ověřování vynucované ve zbývajících cílových zónách dat. Použití samostatného účtu úložiště je doporučeným způsobem pro příjem dat; poté se doporučuje využít sdílené prostředí pro integraci Runtime nebo podobný proces příjmu k nasměrování dat do vašeho zpracovatelského kanálu. Jak je vidět v následujícím diagramu, vaše skupina prostředků úložiště pro nahrávání vám umožňuje provisionovat úložiště objektů blob pro tyto konkrétní případy použití.

Týmy datových aplikací požadují úložné objekty blob. Tyto žádosti schválí provozní tým cílové zóny dat. Po nahrání do úložiště surových dat by se data měla odstranit ze zdrojového úložního objektu blob.

Důležitý

Vzhledem k tomu, že se objekty blob služby Azure Storage zřizují podle potřeby, měli byste nejprve nasadit prázdnou skupinu prostředků úložných služeb do každé datové přistávací zóny.

Příjem dat

Tato skupina prostředků je volitelná a nezabrání vám v nasazení přistávací zóny. To platí, pokud máte nebo vyvíjíte modul pro příjem dat, který automaticky ingestuje data na základě registrovaných metadat, včetně připojovacích řetězců, cest pro přenos dat a plánů příjmu dat.

Skupina prostředků pro příjem dat a zpracování má pro tento druh architektury klíčové služby.

Nasaďte instanci služby Azure SQL Database pro uchovávání metadat používaných službou Azure Data Factory. Zřízení služby Azure Key Vault pro ukládání tajných kódů souvisejících se službami automatizovaného příjmu dat Mezi tyto tajné kódy patří:

Přihlašovací údaje metastoru služby Azure Data Factory
Přihlašovací údaje servisního objektu pro váš automatizovaný proces ingestování dat

Další informace najdete v tématu Jak automatizované architektury příjmu dat podporují analýzy na úrovni cloudu v Azure.

Mezi služby zahrnuté v této skupině prostředků patří:

Služba	Povinné	Pokyny
Azure Data Factory	Ano	Azure Data Factory je váš orchestrační modul pro příjem dat, který je nezávislý na datech.
Azure SQL DB	Ano	Azure SQL DB je metastor pro Službu Azure Data Factory.
Event Hubs nebo IoT Hub	Volitelný	Event Hubs nebo IoT Hub mohou poskytovat streamování v reálném čase do služby Event Hubs a také dávkové a streamové zpracování prostřednictvím technického pracovního prostoru Databricks.
Azure Databricks	Volitelný	Azure Databricks nebo Azure Synapse Spark můžete nasadit pro použití s modulem pro příjem dat, který je nezávislý na datech.
Azure Synapse	Volitelný	Můžete nasadit Azure Databricks nebo Azure Synapse Spark pro použití s datově nezávislým modulem pro příjem.

Sdílené aplikace

Tato volitelná skupina prostředků se používá v případě, že je potřeba mít sadu sdílených služeb zpřístupněných všem týmům, které vytvářejí datové aplikace v této cílové zóně dat. Mezi příklady použití patří:

Pracovní prostor Azure Databricks používaný jako sdílený metastore pro všechny ostatní pracovní prostory Databricks vytvořené ve stejné cílové zóně dat (nebo oblasti)
Sdílená instance Azure Synapse Analytics využívající bezserverové fondy SQL umožňující uživatelům dotazovat se napříč izolovanými účty úložiště.

Poznámka

Azure Databricks používá katalog Unity k řízení přístupu a viditelnosti metastorů v pracovních prostorech Databricks. Katalog Unity je povolený na úrovni tenanta, ale metastory jsou v souladu s oblastmi Azure. V praxi to znamená, že všechny pracovní prostory Databricks s podporou katalogu Unity v dané oblasti Azure se budou muset zaregistrovat do stejného metastoru. Další informace naleznete v tématu Osvědčené postupy katalogu Unity.

Při integraci Azure Databricks postupujte podle osvědčených postupů analýzy v cloudovém měřítku:

Datová aplikace

Každá cílová zóna dat může mít více datových aplikací. Tyto aplikace můžete vytvářet ingestováním dat z různých zdrojů. Můžete také vytvářet datové aplikace z jiných datových aplikací ve stejné cílové zóně dat nebo z jiných cílových zón dat. Vytváření žádostí o data podléhá schválení správcem údajů.

Skupina prostředků datové aplikace

Vaše skupina prostředků datové aplikace zahrnuje všechny služby potřebné pro vytvoření této datové aplikace. Například pro MySQL je vyžadována služba Azure Database, kterou používá vizualizační nástroj. Data se musí načíst a transformovat, než se uloží do databáze MySQL. V tomto případě můžete službu Azure Database for MySQL a Azure Data Factory nasadit do skupiny prostředků datové aplikace.

Spropitné

Pokud se rozhodnete neimplementovat systém nezávislý na datech pro jednorázový příjem dat z provozních zdrojů, nebo pokud nejsou ve vašem systému nezávislém na datech podporována složitá připojení, vytvořte datovou aplikaci sladěnou se zdrojem. Další informace najdete v datových aplikacích (zarovnaných zdroji).

Další informace o integraci datových produktů najdete v tématu analytické aplikace pro data v cloudovém měřítku v Azure.

Reportování a vizualizace

Nástroje pro vizualizaci a vytváření sestav můžete použít v rámci pracovních prostorů Fabric, které mají mnoho podobností s pracovními prostory Power BI, aniž byste museli nasazovat jedinečné prostředky ve vaší zóně příchozích dat. Můžete zahrnout skupinu prostředků pro nasazení kapacity infrastruktury, virtuálních počítačů pro brány dat nebo jiných nezbytných datových služeb, které doručí vaši datovou aplikaci koncovému uživateli.

Další kroky

Analytické datové produkty v měřítku cloudu v Azure

Sdílet prostřednictvím

Cílové zóny dat

Architektura cílové zóny dat

Služby platformy

Síťování

Zabezpečení a monitorování

Základní služby

Skladování

Moduly runtime pro sdílenou integraci

Řízení

Externí úložiště

Příjem dat

Sdílené aplikace

Datová aplikace

Skupina prostředků datové aplikace

Reportování a vizualizace

Další kroky

Váš názor

Další materiály