Použití Azure Data Lake Storage Gen2 v úlohách analýzy dat

Dokončeno

Azure Data Lake Store Gen2 je technologie umožňující použití více případů použití analýzy dat. Pojďme se podívat na několik běžných typů analytických úloh a zjistit, jak Azure Data Lake Storage Gen2 funguje s dalšími službami Azure, které je podporují.

Zpracování a analýza velkých objemů dat

Diagram služby Azure Data Lake Storage Gen2, ke které se přistupuje z Azure Synapse Analytics, Azure Databricks a Azure HDInsight

Scénáře s velkými objemy dat obvykle odkazují na analytické úlohy, které zahrnují obrovské objemy dat v různých formátech, které je potřeba zpracovávat rychle – tzv. "three v". Azure Data Lake Storage Gen2 poskytuje škálovatelné a zabezpečené distribuované úložiště dat, ve kterém můžou služby pro velké objemy dat, jako jsou Azure Synapse Analytics, Azure Databricks a Azure HDInsight, používat architektury pro zpracování dat, jako jsou Apache Spark, Hive a Hadoop. Distribuovaná povaha úložiště a výpočetních prostředků zpracování umožňuje provádět úlohy paralelně, což vede k vysokému výkonu a škálovatelnosti i při zpracování velkého množství dat.

Datové sklady

Diagram Azure Data Lake Storage Gen2, který se používá k podpoře řešení datových skladů ve službě Azure Synapse Analytics

Datové sklady se v posledních letech vyvinuly, aby integrovaly velké objemy dat uložených jako soubory v datovém jezeře s relačními tabulkami v datovém skladu. V typickém příkladu řešení datových skladů se data extrahují z provozních úložišť dat, jako je databáze Azure SQL nebo Azure Cosmos DB, a transformují se na struktury, které jsou vhodnější pro analytické úlohy. Data se často fázují v datovém jezeře, aby bylo možné před načtením do relačního datového skladu usnadnit distribuované zpracování. V některých případech datový sklad používá externí tabulky k definování vrstvy relačních metadat nad soubory v datovém jezeře a vytvoření hybridní architektury Data Lakehouse nebo Lake Database. Datový sklad pak může podporovat analytické dotazy pro vytváření sestav a vizualizaci.

Tento typ architektury datových skladů lze implementovat několika způsoby. Diagram znázorňuje řešení, ve kterém Azure Synapse Analytics hostuje kanály , které provádějí procesy extrakce, transformace a načítání (ETL) pomocí technologie Azure Data Factory. Tyto procesy extrahují data z provozních zdrojů dat a načítají je do data lake hostovaného v kontejneru Azure Data Lake Storage Gen2. Data se pak zpracovávají a načítají do relačního datového skladu ve vyhrazeném fondu SQL azure Synapse Analytics, odkud můžou podporovat vizualizaci dat a vytváření sestav pomocí Microsoft Power BI.

Analýza dat v reálném čase

Diagram Azure Data Lake Storage Gen2, který se používá k ukládání výsledků zpracování dat v reálném čase ve službě Azure Stream Analytics

Firmy a další organizace stále častěji potřebují zaznamenávat a analyzovat časově neomezené datové proudy a analyzovat je v reálném čase (nebo co nejblíže k reálnému čase). Tyto datové proudy je možné generovat z připojených zařízení (často označovaných jako internet věcí nebo zařízení IoT ) nebo z dat generovaných uživateli na platformách sociálních médií nebo jiných aplikacích. Na rozdíl od tradičních úloh dávkového zpracování vyžaduje streamovaná data řešení, které dokáže zachytit a zpracovat neomezený datový proud událostí při jejich výskytu.

Události streamování se často zaznamenávají do fronty ke zpracování. K provedení této úlohy můžete použít několik technologií, včetně služby Azure Event Hubs, jak je znázorněno na obrázku. Odsud se data zpracovávají, často kvůli agregaci dat v časových oknech (například k počítání počtu zpráv sociálních médií s danou značkou každých pět minut nebo k výpočtu průměrného čtení senzoru připojeného k internetu za minutu). Azure Stream Analytics umožňuje vytvářet úlohy , které dotazují a agregují data událostí při jejich doručení a zapisují výsledky do výstupní jímky. Jednou z těchto jímek je Azure Data Lake Storage Gen2; z místa, kde lze zachycená data v reálném čase analyzovat a vizualizovat.

Datové vědy a strojové učení

Diagram Azure Data Lake Storage Gen2, který se používá jako zdroj pro Azure Machine Learning

Datové vědy zahrnují statistickou analýzu velkých objemů dat, často pomocí nástrojů, jako jsou Apache Spark a skriptovací jazyky, jako je Python. Azure Data Lake Storage Gen2 poskytuje vysoce škálovatelné cloudové úložiště dat pro objemy dat vyžadovaných v úlohách datových věd.

Strojové učení je podoblast datových věd, která se zabývá trénováním prediktivních modelů. Trénování modelu vyžaduje obrovské objemy dat a schopnost efektivně zpracovávat tato data. Azure Machine Learning je cloudová služba, ve které můžou datoví vědci spouštět kód Pythonu v poznámkových blocích pomocí dynamicky přidělených distribuovaných výpočetních prostředků. Výpočetní prostředky zpracovávají data v kontejnerech Azure Data Lake Storage Gen2 k trénování modelů, které je pak možné nasadit jako produkční webové služby pro podporu prediktivních analytických úloh.