Proces načítání s využitím analýz v měřítku cloudu v Azure
Azure poskytuje několik služeb ingestování a vydávání dat pro nativní platformy a platformy třetích stran. Různé služby je možné použít v závislosti na objemu, rychlosti, rozmanitosti a směru. Mezi tyto služby patří:
- Azure Data Factory je služba vytvořená pro potřeby aplikací dat na všech úrovních dovedností, s ohledem na sladění se zdrojovými daty. Napište vlastní kód nebo vytvořte, extrahujte, načtěte a transformujte procesy v intuitivním vizuálním prostředí bez nutnosti psaní kódu. S více než 90 nativně vytvořenými a bezúdržbovými konektory vizuálně integrujte zdroje dat bez dalších poplatků. Technici můžou používat privátní koncové body a propojit služby k bezpečnému připojení k prostředkům PaaS (Platforma jako služba) Azure bez použití veřejných koncových bodů prostředku PaaS. Technici můžou pomocí prostředí Integration Runtime rozšířit kanály do prostředí třetích stran, jako jsou místní zdroje dat a další cloudy.
Některé z těchto konektorů se používají jako zdroj (čtení) nebo jako jímka (zápis). Nativní služby Azure, Oracle, SAP a další je možné použít jako zdroj nebo jímku, ale ne všechny konektory ho podporují. V těchto případech můžete použít obecné konektory, jako je Open Database Connectivity (ODBC), systém souborů nebo konektory SFTP (File Transfer Protocol).
Azure Databricks je rychlá, snadná a společná analytická služba založená na Apache Sparku. V případě kanálu pro velké objemy dat můžete ingestovat data (nezpracovaná nebo strukturovaná) do Azure prostřednictvím služby Data Factory v dávkách nebo streamovaných téměř v reálném čase pomocí Apache Kafka, Azure Event Hubs nebo IoT Hubu. Tato data se nachází v datovém jezeře pro dlouhodobé trvalé úložiště ve službě Azure Data Lake Storage. Azure Databricks může číst data z více zdrojů dat v rámci pracovního postupu.
Microsoft Power Platform poskytuje konektory pro stovky služeb, které můžou být řízené událostmi, plánem nebo nabízenými oznámeními. Microsoft Power Automate může reagovat na události a aktivovat pracovní postupy optimalizované pro jednotlivé záznamy nebo malé objemy dat.
Proprietární nativní nástroje a nástroje třetích stran poskytují možnosti integrace se specializovanými systémy a replikací téměř v reálném čase.
- Azure Data Share podporuje organizace k bezpečnému sdílení dat s několika externími zákazníky a partnery. Po vytvoření účtu sdílené datové složky a přidání datových produktů je možné pozvat zákazníky a partnery do sdílené datové složky. Poskytovatelé dat mají vždy kontrolu nad daty, která sdílí. Azure Data Share usnadňuje správu a monitorování sdílených dat, kdy byla sdílena a kdo je sdílel.
Důležitý
Každá cílová zóna dat může mít skupinu prostředků pro příjem dat, která existuje pro firmy, které mají modul pro příjem dat nezávislý na datech. Pokud tento modul architektury nemáte, jediným doporučeným prostředkem je nasazení pracovního prostoru analýzy Azure Databricks, který by integrace dat používaly ke spouštění složitých příjmů dat. Informace o potenciálních vzorech automatizace najdete v nezávislém modulu pro zpracování dat.
Aspekty ingestování služby Azure Data Factory
Pokud máte ingestní modul nezávislý na datech, měli byste nasadit jednu službu Data Factory pro každou zónu příjmu dat ve skupině prostředků pro příjem dat. Pracovní prostor služby Data Factory by měl být uživatelům uzavřen a přístup k nasazení budou mít pouze spravovaná identita a poskytovatelé služeb. Operace cílové zóny dat by měly mít přístup pro čtení, aby bylo možné ladění kanálu.
Datová aplikace může mít pro přesun dat vlastní službu Data Factory. Mít službu Data Factory v každé skupině prostředků datové aplikace podporuje kompletní prostředí kontinuální integrace (CI) a průběžného nasazování (CD), protože umožňuje nasazení kanálů pouze z Azure DevOps nebo GitHubu.
Všechny pracovní prostory ve službě Data Factory budou většinou využívat funkci spravované virtuální sítě (VNet) ve službě Data Factory nebo samostatně hostované integrační prostředí runtime pro zónu příjmu dat v rámci oblasti správy dat. Technici se doporučuje používat funkci spravované virtuální sítě k zabezpečenému připojení k prostředku Azure PaaS.
Je však možné vytvořit další prostředí Integration Runtime pro příjem dat z místních cloudů, cloudů třetích stran a zdrojů dat saaS (software jako služba) třetích stran.
Aspekty příjmu pro Azure Databricks
Tyto pokyny probírují informace v těchto materiálech:
Zabezpečení přístupu ke službě Azure Data Lake Storage Gen2 z Azure Databricks
Při vývoji by operace integrace měly mít vlastní prostředí Azure Databricks před vrácením kódu k nasazení do jediného pracovního prostoru Azure Databricks během testování a produkce.
Služba Data Factory ve skupině prostředků aplikace dat (v souladu se zdrojem) by měla poskytovat architekturu pro volání úloh Azure Databricks.
Týmy datových aplikací můžou v Azure Databricks nasazovat krátké automatizované úlohy a očekávat, že se clustery rychle spustí, provedou úlohu a ukončí. Doporučujeme nastavit fondy Azure Databricks, aby se zkrátila doba potřebnou ke spuštění clusterů pro úlohy.
K implementaci architektury nasazení pro nové kanály doporučujeme, aby organizace používaly Azure DevOps. Architektura se použije k vytváření složek datových sad, přiřazování seznamů řízení přístupu a vytvoření tabulky s vynucováním řízení přístupu k tabulce Databricks nebo bez vynucení řízení přístupu k tabulce Databricks.
Příjem streamů
Organizace můžou potřebovat podporovat scénáře, kdy vydavatelé generují vysokorychlostní streamy událostí. Pro tento vzor se doporučuje použít frontu zpráv, například Event Hubs nebo IoT Hub, k zpracování těchto streamů.
Event Hubs a IoT Hub jsou škálovatelné služby zpracování událostí, které můžou ingestovat a zpracovávat velké objemy událostí a data s nízkou latencí a vysokou spolehlivostí. Služba Event Hubs je navržená jako služba pro streamování velkých objemů dat a příjem událostí. IoT Hub je spravovaná služba, která slouží jako centrální centrum zpráv pro obousměrnou komunikaci mezi aplikací IoT a zařízeními, která spravuje. Odtud je možné data buď exportovat do datového jezera v pravidelných intervalech (dávce) a zpracovávat s Azure Databricks téměř v reálném čase prostřednictvím Služby Apache Spark Streaming, Azure Data Exploreru, Stream Analytics nebo Time Series Insights.
Poslední cílová zóna služby Event Hubs nebo Apache Kafka v konkrétní cílové zóně případu použití by měla odesílat agregovaná data do nezpracované vrstvy datového jezera v jedné z cílových zón dat a do služby Event Hubs související se skupinou prostředků aplikace dat (v souladu se zdrojem) v cílové zóně dat.
Monitorování příjmu
Přednastavené monitorování kanálu služby Azure Data Factory lze použít k monitorování a řešení potíží s výjimkami z kanálů služby Azure Data Factory. Snižuje úsilí při vývoji vlastního řešení monitorování a vytváření sestav.
Integrované monitorování je jedním z hlavních důvodů použití služby Azure Data Factory jako hlavního nástroje pro orchestraci a Azure Policy vám může pomoct automatizovat toto nastavení.