Jak služba Azure Data Factory funguje
Tady se dozvíte o komponentách a propojených systémech služby Azure Data Factory a o tom, jak fungují. Tyto znalosti by vám měly pomoct určit, jak nejlépe využít Azure Data Factory ke splnění požadavků vaší organizace.
Azure Data Factory je kolekce propojených systémů, které kombinují, aby poskytovaly komplexní platformu pro analýzu dat. V této lekci se dozvíte o následujících funkcích služby Azure Data Factory:
- Připojení a shromažďování
- Transformace a rozšíření
- Kontinuální integrace a doručování (CI/CD) a publikování
- Sledování
Dozvíte se také o těchto klíčových komponentách služby Azure Data Factory:
- Pipelines
- Aktivity
- Datové sady
- Propojené služby
- Toky dat
- Prostředí Integration Runtime
Funkce služby Azure Data Factory
Azure Data Factory se skládá z několika funkcí, které kombinují, aby datoví inženýři poskytli kompletní platformu pro analýzu dat.
Připojení a shromažďování
První částí procesu je shromáždění požadovaných dat z příslušných zdrojů dat. Tyto zdroje se dají nacházet v různých umístěních, včetně místních zdrojů a cloudu. Data můžou být:
- Strukturovaná
- Nestrukturovaná
- Částečně strukturovaná
Kromě toho mohou tato různorodá data docházet v různých rychlostech a intervalech. Pomocí služby Azure Data Factory můžete pomocí aktivity kopírování přesouvat data z různých zdrojů do jediného centralizovaného úložiště dat v cloudu. Po zkopírování dat použijete jiné systémy k jejich transformaci a analýze.
Aktivita kopírování provádí následující základní kroky:
Čtení dat ze zdrojového úložiště dat
U dat proveďte následující úlohy:
- Serializace/deserializace
- Komprese/dekomprese
- Mapování sloupců
Poznámka:
Můžou existovat další úkoly.
Zapisujte data do cílového úložiště dat (označuje se jako jímka).
Tento proces je shrnutý v následujícím obrázku:
Transformace a rozšíření
Po úspěšném zkopírování dat do centrálního cloudového umístění můžete data podle potřeby zpracovat a transformovat pomocí mapování toků dat služby Azure Data Factory. Toky dat umožňují vytvářet grafy transformace dat, které běží ve Sparku. Nemusíte ale rozumět clusterům Spark nebo programování Sparku.
Tip
I když to není nutné, možná budete chtít kódovat transformace ručně. Pokud ano, Azure Data Factory podporuje externí aktivity pro spouštění transformací.
CI/CD a publikování
Podpora CI/CD umožňuje vyvíjet a dodávat procesy extrakce, transformace, načítání (ETL) přírůstkově před publikováním. Azure Data Factory poskytuje CI/CD datových kanálů pomocí:
- Azure DevOps
- GitHub
Poznámka:
Kontinuální integrace znamená automatické testování každé změny provedené v základu kódu co nejdříve. Průběžné doručování se řídí tímto testováním a nasdílí změny do přípravného nebo produkčního systému.
Jakmile Azure Data Factory zpřesní nezpracovaná data, můžete je načíst do analytického modulu, ke kterému mají vaši podnikoví uživatelé přístup, a to i z těchto nástrojů business intelligence:
- Azure Synapse Analytics
- Azure SQL Database
- Azure Cosmos DB
Monitor
Po úspěšném sestavení a nasazení kanálu integrace dat je důležité, abyste mohli monitorovat naplánované aktivity a kanály. Monitorování umožňuje sledovat úspěšnost a míru selhání. Azure Data Factory poskytuje podporu monitorování kanálů pomocí jedné z následujících metod:
- Azure Monitor
- rozhraní API
- PowerShell
- Protokoly Azure Monitoru
- Panely stavu na webu Azure Portal
Komponenty služby Azure Data Factory
Azure Data Factory se skládá z komponent popsaných v následující tabulce:
Komponenta | Popis |
---|---|
Pipelines | Logické seskupení aktivit, které provádějí určitou jednotku práce. Tyto aktivity společně provádějí úlohu. Výhodou používání kanálu je, že můžete aktivity snadněji spravovat jako sadu místo jednotlivých položek. |
Aktivity | Jeden krok zpracování v kanálu. Azure Data Factory podporuje tři typy aktivit: přesun dat, transformaci dat a aktivity řízení. |
Datové sady | Znázornění datových struktur v úložištích dat Datové sady odkazují na (nebo odkazují) na data, která chcete použít ve svých aktivitách jako vstupy nebo výstupy. |
Propojené služby | Definujte požadované informace o připojení potřebné pro azure Data Factory pro připojení k externím prostředkům, jako je zdroj dat. Azure Data Factory používá propojené služby ke dvěma účelům: k reprezentaci úložiště dat nebo výpočetního prostředku. |
Toky dat | Umožňuje datovým inženýrům vyvíjet logiku transformace dat, aniž by museli psát kód. Toky dat se spouštějí jako aktivity v kanálech Azure Data Factory, které používají clustery Apache Spark se škálováním na více systémů. |
Prostředí Integration Runtime | Azure Data Factory využívá výpočetní infrastrukturu k poskytování následujících možností integrace dat v různých síťových prostředích: tok dat, přesun dat, odesílání aktivit a spouštění balíčků SSIS (SQL Server Integration Services). V Azure Data Factory poskytuje prostředí Integration Runtime most mezi aktivitou a propojenými službami. |
Jak je uvedeno v následujícím obrázku, tyto komponenty spolupracují a poskytují kompletní kompletní platformu pro datové inženýry. Pomocí služby Data Factory můžete:
- Nastavte triggery na vyžádání a naplánujte zpracování dat na základě vašich potřeb.
- Přidružte kanál k triggeru nebo ho ručně spusťte podle potřeby.
- Připojte se k propojeným službám (jako jsou místní aplikace a data) nebo ke službám Azure prostřednictvím prostředí Integration Runtime.
- Monitorujte všechny vaše kanály nativně v uživatelském prostředí služby Azure Data Factory nebo pomocí služby Azure Monitor.