Vysvětlení komponent služby Azure Data Factory

Dokončeno

Předplatné Azure může mít jednu nebo více instancí služby Azure Data Factory. Azure Data Factory se skládá ze čtyř základních komponent. Tyto součásti společně poskytují platformu, na které můžete vytvářet pracovní postupy řízené daty s kroky pro přesun a transformaci dat.

Služba Data Factory podporuje širokou škálu zdrojů dat, ke kterým se můžete připojit prostřednictvím vytváření objektu označovaného jako propojená služba, která umožňuje ingestovat data ze zdroje dat v připravenosti k přípravě dat na transformaci a/nebo analýzu. Propojené služby navíc můžou na vyžádání aktivovat výpočetní služby. Můžete mít například požadavek na spuštění clusteru HDInsight na vyžádání za účelem pouhého zpracování dat prostřednictvím dotazu Hive. Propojené služby umožňují definovat zdroje dat nebo výpočetní prostředek, který je nutný k ingestování a přípravě dat.

S definovanou propojenou službou se služba Azure Data Factory seznámí s datovými sadami, které by měla používat při vytváření objektu Datasets . Datové sady představují datové struktury v úložišti dat, na které odkazuje objekt propojené služby. Datové sady lze také použít objektem ADF označovaným jako Aktivita.

Aktivity obvykle obsahují logiku transformace nebo příkazy analýzy práce služby Azure Data Factory. Aktivity zahrnují aktivitu kopírování, která se dá použít k příjmu dat z různých zdrojů dat. Může také zahrnovat mapování Tok dat k provádění transformací dat bez kódu. Může také zahrnovat spuštění uložené procedury, dotazu Hive nebo skriptu Pig pro transformaci dat. Data můžete odeslat do modelu Machine Learning, abyste mohli provádět analýzu. Není neobvyklé, že bude probíhat více aktivit, které mohou zahrnovat transformaci dat pomocí uložené procedury SQL a pak provádět analýzy pomocí Databricks. V tomto případě může být více aktivit logicky seskupeno společně s objektem, který se označuje jako kanál, a je možné je naplánovat ke spuštění nebo může být definován trigger , který určuje, kdy je potřeba spustit spuštění kanálu. Pro různé typy událostí existují různé typy aktivačních událostí.

Komponenty služby Data Factory

Tok řízení je orchestrace aktivit kanálu, která zahrnuje řetězení aktivit v posloupnosti, větvení, definování parametrů na úrovni kanálu a předávání argumentů při vyvolání kanálu na vyžádání nebo z triggeru. Zahrnuje také předávání vlastních stavů a kontejnery smyček a iterátory for-each.

Parametry jsou páry klíč-hodnota konfigurace jen pro čtení.  Parametry jsou definované v kanálu. Argumenty definovaných parametrů se předávají během provádění z kontextu spuštění vytvořeného aktivační událostí nebo ručně spuštěným kanálem. Aktivity v rámci kanálu využívají hodnoty parametrů.

Azure Data Factory má prostředí Integration Runtime , které umožňuje přemostit mezi aktivitami a propojenými objekty služeb. Na toto prostředí se odkazuje z propojené služby. Poskytuje výpočetní prostředí, ve kterém se příslušná aktivita buď spustí, nebo se z něj odešle. Tímto způsobem lze aktivitu provést v nejbližší možné oblasti. Existují tři typy prostředí Integration Runtime, včetně Azure, místního prostředí a Azure-SSIS.

Po dokončení celé práce pak můžete pomocí služby Data Factory publikovat konečnou datovou sadu do jiné propojené služby, kterou pak můžou využívat technologie, jako je Power BI nebo Machine Learning.