Cílové zóny dat
Cílové zóny dat jsou připojené k cílové zóně správy dat partnerským vztahem virtuální sítě nebo privátními koncovými body. Každá cílová zóna dat se považuje za cílovou zónu související s architekturou cílové zóny Azure.
Důležitý
Před zřízením cílové zóny dat se ujistěte, že je váš provozní model DevOps a CI/CD zavedený a nasadí se cílová zóna správy dat.
Každá cílová zóna dat má několik vrstev, které umožňují flexibilitu pro integraci dat služby a datové aplikace, které obsahuje. Novou cílovou zónu dat můžete nasadit se standardní sadou služeb, které cílové zóně dat umožňují začít ingestovat a analyzovat data.
Typické předplatné Azure přidružené k cílové zóně dat má následující strukturu:
Vrstva | Vyžadováno | Skupiny prostředků |
---|---|---|
Vrstva služeb platformy | Ano | |
základní služby | Ano |
|
aplikace dat | Volitelný |
|
vytváření sestav a vizualizace | Volitelný |
Poznámka
I když je vrstva základních služeb označená jako povinná, nemusí být pro vaši cílovou zónu dat nutné všechny skupiny prostředků a služby zahrnuté v tomto článku.
Architektura cílové zóny dat
Architektura cílové zóny dat znázorňuje vrstvy, jejich skupiny prostředků a služby, které každá skupina prostředků obsahuje. Architektura nabízí přehled všech skupin a rolí spojených s přistávací zónou dat a rozsah jejich přístupu k řídicím plochám a datovým plochám. Architektura také ilustruje, jak každá vrstva odpovídá zodpovědnostem provozního modelu.
Spropitné
Před nasazením cílové zóny dat se ujistěte, že zvažte počet počátečních cílových zón dat, které chcete nasadit.
Služby platformy
Vrstva služeb platformy zahrnuje služby potřebné k zajištění připojení a pozorovatelnosti cílové zóny dat v kontextu analýzy v cloudovém měřítku. Následující tabulka uvádí doporučené skupiny prostředků.
Skupina prostředků | Povinný | Popis |
---|---|---|
network-rg |
Ano | Síťování |
security-rg |
Ano | Zabezpečení a monitorování |
Síťování
Skupina síťových prostředků obsahuje služby připojení, včetně virtuálních sítí Azure, skupin zabezpečení sítě (NSG) a směrovacích tabulek. Všechny tyto služby jsou nasazeny do jediné skupiny prostředků.
Virtuální síť cílové zóny dat je
Zabezpečení a monitorování
Skupina prostředků zabezpečení a monitorování zahrnuje Azure Monitor a Microsoft Defender pro Cloud ke shromažďování telemetrie služeb, definování kritérií monitorování a upozornění a použití zásad a skenování u služeb.
Základní služby
Vrstva klíčových služeb zahrnuje základní služby potřebné k umožnění cílové zóny dat v kontextu analytiky v cloudovém rozsahu. Následující tabulka uvádí skupiny prostředků, které poskytují standardní sadu dostupných služeb v každé cílové zóně dat, kterou nasadíte.
Skupina prostředků | Povinný | Popis |
---|---|---|
storage-rg |
Ano | Služby datového jezera |
runtimes-rg |
Ano | Moduly runtime pro sdílenou integraci |
mgmt-rg |
Ano | Agenti CI/CD |
external-data-rg |
Ano | Externí úložiště dat |
data-ingestion-rg |
Volitelný | Služby sdíleného příjmu dat |
shared-applications-rg |
Volitelný | Sdílené aplikace (Synapse nebo Databricks) |
Skladování
Jak je znázorněno v diagramu, tři účty Azure Data Lake Storage Gen2 jsou zřízeny v jedné skupině prostředků služby Data Lake Services. Data transformovaná v různých fázích se ukládají do jednoho z datových jezer cílové zóny vašich dat. Data jsou dostupná pro využití analytickými týmy, datovými vědami a vizualizacemi.
Vrstvy Data Lake používají různé terminologie v závislosti na technologii a dodavateli. Tato tabulka obsahuje pokyny k použití podmínek pro analýzy v cloudovém měřítku:
Analýzy v cloudovém měřítku | Delta Lake | Další podmínky | Popis |
---|---|---|---|
Syrový | Bronz | Přistání a shoda | Datové tabulky příjmu |
Obohacený | Stříbro | Zóna standardizace | Upřesňující tabulky Uložená úplná entita, sady záznamů připravené pro spotřebu ze systémů záznamu. |
Vybrané | Zlato | Zóna produktu | Funkce nebo agregované tabulky Primární zóna pro aplikace, týmy a uživatele pro využívání datových produktů |
Rozvoj | -- | Rozvojová zóna | Prostor pro datové inženýry a vědce, který zahrnuje analytický sandbox a zónu pro vývoj produktů. |
Poznámka
V předchozím diagramu má každá vstupní zóna dat tři úložiště Data Lake. V závislosti na vašich požadavcích se ale můžete rozhodnout konsolidovat nezpracované, rozšířené a kurátorované vrstvy do jednoho účtu úložiště a udržovat další účet úložiště označovaný jako pracovní prostor pro příjemce dat, aby mohli přinést další užitečné datové produkty.
Další informace najdete tady:
- Přehled služby Azure Data Lake Storage pro cloudové analýzy ve velkém měřítku
- standardizace dat
- Zajištění účtů Azure Data Lake Storage Gen2 pro každou zónu pro ukládání dat
- klíčové aspekty služby Azure Data Lake Storage
- konfigurace řízení přístupu a datového jezera ve službě Azure Data Lake Storage
Moduly runtime pro sdílenou integraci
Kanály Azure Data Factory a Azure Synapse Analytics používají prostředí Integration Runtime (IR) k bezpečnému přístupu ke zdrojům dat v partnerských nebo izolovaných sítích. Sdílené provozní prostředí integrace by se mělo nasadit na virtuální počítač (nebo Azure Virtual Machine Scale Sets) ve skupině prostředků sdíleného provozního prostředí Integration Runtime.
Povolit sdílenou skupinu prostředků.
- Ve skupině prostředků sdílené integrace vaší cílové zóny dat vytvořte aspoň jednu službu Azure Data Factory. Použijte ho jenom pro propojení sdíleného místního prostředí Integration Runtime, ne pro datové kanály.
- Vytvoření a konfigurace místního prostředí Integration Runtime na virtuálním počítači.
- Přidružte místní prostředí Integration Runtime k datovým továrnám Azure v cílových zónách dat.
- Pomocí skriptů PowerShellu můžete pravidelně aktualizovat lokálně hostované prostředí Integration Runtime.
Poznámka
Nasazení popisuje nasazení jednoho virtuálního počítače pomocí místního prostředí Integration Runtime. Místní prostředí Integration Runtime můžete přidružit k několika místním virtuálním počítačům nebo v Azure. Tyto počítače se nazývají uzly a můžete mít až čtyři uzly přidružené k místnímu prostředí Integration Runtime. Výhody mít více uzlů jsou:
- Vyšší dostupnost místního prostředí Integration Runtime, takže už není kritickým bodem selhání ve vaší datové aplikaci nebo v orchestraci integrace cloudových dat.
- Zvýšení výkonu a propustnosti při přesunu dat mezi místními a cloudovými datovými službami. Získejte další informace o porovnání výkonu .
Můžete přidružit více uzlů instalací místního softwaru Integration Runtime z webu Download Center. Pak ho zaregistrujte pomocí některého z ověřovacích klíčů získaných z rutiny New-AzDataFactoryV2IntegrationRuntimeKey, jak je popsáno v kurzu .
Další informace najdete v Azure Data Factory vysoká dostupnost a škálovatelnost.
Důležitý
Nasaďte sdílené integrační runtime co nejblíže zdroji dat. Prostředí Integration Runtime můžete nasadit do cílové zóny dat, do cloudů třetích stran nebo do privátního cloudu za předpokladu, že má virtuální počítač připojení k požadovaným zdrojům dat.
Řízení
Agenti CI/CD běží na virtuálních počítačích a pomáhají nasadit artefakty z úložiště zdrojového kódu, včetně datových aplikací a změn cílové zóny dat.
Další informace najdete v části agenti Azure Pipelines.
Externí úložiště
Vydavatelé partnerských dat potřebují přenést data do vaší platformy, aby je týmy pracující s datovými aplikacemi mohly načítat do svých datových jezer. Můžete také mít interní nebo externí zdroje dat, které nepodporují požadavky na připojení nebo ověřování vynucované ve zbývajících cílových zónách dat. Použití samostatného účtu úložiště je doporučeným způsobem pro příjem dat; poté se doporučuje využít sdílené prostředí pro integraci Runtime nebo podobný proces příjmu k nasměrování dat do vašeho zpracovatelského kanálu. Jak je vidět v následujícím diagramu, vaše skupina prostředků úložiště pro nahrávání vám umožňuje provisionovat úložiště objektů blob pro tyto konkrétní případy použití.
Týmy datových aplikací požadují úložné objekty blob. Tyto žádosti schválí provozní tým cílové zóny dat. Po nahrání do úložiště surových dat by se data měla odstranit ze zdrojového úložního objektu blob.
Důležitý
Vzhledem k tomu, že se objekty blob služby Azure Storage zřizují podle potřeby, měli byste nejprve nasadit prázdnou skupinu prostředků úložných služeb do každé datové přistávací zóny.
Příjem dat
Tato skupina prostředků je volitelná a nezabrání vám v nasazení přistávací zóny. To platí, pokud máte nebo vyvíjíte modul pro příjem dat, který automaticky ingestuje data na základě registrovaných metadat, včetně připojovacích řetězců, cest pro přenos dat a plánů příjmu dat.
Skupina prostředků pro příjem dat a zpracování má pro tento druh architektury klíčové služby.
Nasaďte instanci služby Azure SQL Database pro uchovávání metadat používaných službou Azure Data Factory. Zřízení služby Azure Key Vault pro ukládání tajných kódů souvisejících se službami automatizovaného příjmu dat Mezi tyto tajné kódy patří:
- Přihlašovací údaje metastoru služby Azure Data Factory
- Přihlašovací údaje servisního objektu pro váš automatizovaný proces ingestování dat
Další informace najdete v tématu Jak automatizované architektury příjmu dat podporují analýzy na úrovni cloudu v Azure.
Mezi služby zahrnuté v této skupině prostředků patří:
Služba | Povinné | Pokyny |
---|---|---|
Azure Data Factory | Ano | Azure Data Factory je váš orchestrační modul pro příjem dat, který je nezávislý na datech. |
Azure SQL DB | Ano | Azure SQL DB je metastor pro Službu Azure Data Factory. |
Event Hubs nebo IoT Hub | Volitelný | Event Hubs nebo IoT Hub mohou poskytovat streamování v reálném čase do služby Event Hubs a také dávkové a streamové zpracování prostřednictvím technického pracovního prostoru Databricks. |
Azure Databricks | Volitelný | Azure Databricks nebo Azure Synapse Spark můžete nasadit pro použití s modulem pro příjem dat, který je nezávislý na datech. |
Azure Synapse | Volitelný | Můžete nasadit Azure Databricks nebo Azure Synapse Spark pro použití s datově nezávislým modulem pro příjem. |
Sdílené aplikace
Tato volitelná skupina prostředků se používá v případě, že je potřeba mít sadu sdílených služeb zpřístupněných všem týmům, které vytvářejí datové aplikace v této cílové zóně dat. Mezi příklady použití patří:
- Pracovní prostor Azure Databricks používaný jako sdílený metastore pro všechny ostatní pracovní prostory Databricks vytvořené ve stejné cílové zóně dat (nebo oblasti)
- Sdílená instance Azure Synapse Analytics využívající bezserverové fondy SQL umožňující uživatelům dotazovat se napříč izolovanými účty úložiště.
Poznámka
Azure Databricks používá katalog Unity k řízení přístupu a viditelnosti metastorů v pracovních prostorech Databricks. Katalog Unity je povolený na úrovni tenanta, ale metastory jsou v souladu s oblastmi Azure. V praxi to znamená, že všechny pracovní prostory Databricks s podporou katalogu Unity v dané oblasti Azure se budou muset zaregistrovat do stejného metastoru. Další informace naleznete v tématu Osvědčené postupy katalogu Unity.
Při integraci Azure Databricks postupujte podle osvědčených postupů analýzy v cloudovém měřítku:
- zabezpečený přístup k Azure Data Lake Gen2 z Azure Databricks
- osvědčených postupů pro Azure Databricks
Datová aplikace
Každá cílová zóna dat může mít více datových aplikací. Tyto aplikace můžete vytvářet ingestováním dat z různých zdrojů. Můžete také vytvářet datové aplikace z jiných datových aplikací ve stejné cílové zóně dat nebo z jiných cílových zón dat. Vytváření žádostí o data podléhá schválení správcem údajů.
Skupina prostředků datové aplikace
Vaše skupina prostředků datové aplikace zahrnuje všechny služby potřebné pro vytvoření této datové aplikace. Například pro MySQL je vyžadována služba Azure Database, kterou používá vizualizační nástroj. Data se musí načíst a transformovat, než se uloží do databáze MySQL. V tomto případě můžete službu Azure Database for MySQL a Azure Data Factory nasadit do skupiny prostředků datové aplikace.
Spropitné
Pokud se rozhodnete neimplementovat systém nezávislý na datech pro jednorázový příjem dat z provozních zdrojů, nebo pokud nejsou ve vašem systému nezávislém na datech podporována složitá připojení, vytvořte datovou aplikaci sladěnou se zdrojem. Další informace najdete v datových aplikacích (zarovnaných zdroji).
Další informace o integraci datových produktů najdete v tématu analytické aplikace pro data v cloudovém měřítku v Azure.
Reportování a vizualizace
Nástroje pro vizualizaci a vytváření sestav můžete použít v rámci pracovních prostorů Fabric, které mají mnoho podobností s pracovními prostory Power BI, aniž byste museli nasazovat jedinečné prostředky ve vaší zóně příchozích dat. Můžete zahrnout skupinu prostředků pro nasazení kapacity infrastruktury, virtuálních počítačů pro brány dat nebo jiných nezbytných datových služeb, které doručí vaši datovou aplikaci koncovému uživateli.