Popis vzorů integrace dat

Dokončeno

Microsoft Azure poskytuje celou řadu služeb datové platformy, které umožňují provádět různé typy analýz. Ať už se jedná o popisné analytické řešení v datovém skladu, prostřednictvím prediktivní analýzy ve službě HDInsight, Azure Databricks nebo Machine Learning Services. Je potřeba, aby služba řešila důležité aspekty integrace dat.

Integrace dat nejprve zahrnuje shromažďování dat z jednoho nebo více zdrojů. Volitelně to obvykle zahrnuje proces, ve kterém mohou být data vyčištěna a transformována, nebo možná rozšířena o další data a připravena. A konečně, amalgamated data jsou uložena ve službě datové platformy, která zpracovává typ analýzy, kterou chcete provést. Tento proces může služba Azure Data Factory automatizovat ve vzoru, který se označuje jako extrakce, transformace a načítání (ETL).

Extrahovat

Během procesu extrakce definují datoví inženýři data a jejich zdroj:

  • Definujte zdroj dat: Identifikujte podrobnosti o zdroji, jako je skupina prostředků, předplatné a informace o identitě, jako je klíč nebo tajný klíč.

  • Definujte data: Identifikujte data, která se mají extrahovat. Data se definují pomocí databázového dotazu, sady souborů nebo názvu úložiště objektů blob Azure.

Transformace

  • Definování transformace dat: Operace transformace dat můžou zahrnovat rozdělení, kombinování, odvození, přidávání, odebírání nebo kontingenční sloupce. Mapují se pole mezi zdrojem dat a cílem dat. Data se také můžou agregovat nebo slučovat.

Načítání

  • Definujte cíl: Během načítání může mnoho cílů Azure přijímat data formátovaná jako json (JavaScript Object Notation), soubor nebo objekt blob. K interakci s rozhraními API aplikací může být potřeba napsat kód.

    Azure Data Factory nabízí integrovanou podporu pro Azure Functions. Podporováno je také mnoho programovacích jazyků, včetně jazyků Node.js, .NET, Python a Java. V minulosti se sice běžně používal jazyk XML (Extensible Markup Language), ale většina systémů migrovala na JSON, protože je jako částečně strukturovaný datový typ flexibilnější.

  • Spusťte úlohu: Otestujte úlohu ETL ve vývojovém nebo testovacím prostředí. Pak se úloha migruje do produkčního prostředí, aby se data načetla do produkčního systému.

  • Monitorování úlohy: Operace ETL mohou zahrnovat mnoho složitých procesů. Nastaví se proaktivní a reaktivní monitorování systému k poskytnutí informací, když se něco nepovede. Nastaví se protokolování podle příslušné technologie.

Nástroje ETL

Jako datový inženýr existuje několik dostupných nástrojů pro ETL. Azure Data Factory poskytuje téměř 100 podnikových konektorů a robustních prostředků pro uživatele bez kódu i na základě kódu, aby dosáhli potřeb jejich přesunu a transformace.

Další vývoj ETL

Příchod Azure otevřel cestu technologiím, které umí zpracovat nestrukturovaná data v neomezeném měřítku. Paradigma extrakce, transformace a načítání dat (ETL) se tak změnilo na extrakci, načítání a transformaci (ELT).

Výhodou ELT je, že data můžete ukládat v jejich původním formátu, ať už jde o JSON, XML, PDF nebo obrázky. U ELT definujete strukturu dat během fáze transformace, takže zdrojová data můžete použít ve více navazujících systémech.

V procesu ELT se data extrahují a načítají ve svém nativním formátu. Zkrátí se tím doba potřebná k načtení dat do cílového systému. Také se tím omezí kolize prostředků u zdrojů dat.

Kroky procesu ELT jsou stejné jako u procesu ETL. Jenom se provádějí v jiném pořadí.

Dalším podobným procesem jako ELT je proces extrakce, načítání, transformace a načítání (ELTL). Proces ELTL se od ELT liší tím, že obsahuje závěrečné načítání dat do cílového systému.

Azure Data Factory podporuje dva běžné typy vzorů integrace dat.

Úlohy moderního datového skladu:

Moderní datový sklad je centralizované úložiště dat, které poskytuje popisné služby pro analýzu a podporu rozhodování v celém podniku pomocí strukturovaných, nestrukturovaných nebo streamovaných zdrojů dat. Do skladu pravidelně přitékají data z různých transakčních systémů, relačních databází a dalších zdrojů dat. Uložená data slouží k vytváření sestav historických a trendových analýz. Datový sklad funguje jako centrální úložiště pro mnoho předmětných oblastí a obsahuje „jediný zdroj pravdivých informací“.

Azure Data Factory se obvykle používá k automatizaci procesu extrakce, transformace a načítání dat prostřednictvím dávkového procesu proti strukturovaným a nestrukturovaným zdrojům dat.

Pokročilé analytické úlohy

Pomocí celé řady služeb datové platformy Azure můžete provádět pokročilé analýzy ve formě prediktivní nebo preemptivní analýzy. Azure Data Factory poskytuje integraci ze zdrojových systémů do služby Data Lake Store a může iniciovat výpočetní prostředky, jako je Azure Databricks nebo HDInsight, aby tato data používala k provádění pokročilé analytické práce.