Principy toků dat Gen2 v Microsoft Fabric
V našem scénáři potřebujete vyvíjet sémantický model, který může standardizovat data a poskytovat přístup k podniku. Pomocí toků dat Gen2 se můžete připojit k různým zdrojům dat a pak je připravit a transformovat. Data můžete přisoudit přímo do jezera nebo použít datový kanál pro jiné cíle.
Co je tok dat?
Toky dat jsou typem cloudového nástroje ETL (Extract, Transform, Load) pro sestavování a spouštění škálovatelných procesů transformace dat.
Toky dat Gen2 umožňují extrahovat data z různých zdrojů, transformovat je pomocí široké škály transformačních operací a načíst je do cíle. Použití Power Query Online také umožňuje vizuální rozhraní k provádění těchto úloh.
Tok dat v zásadě zahrnuje všechny transformace, které zkracují dobu přípravy dat, a pak je možné je načíst do nové tabulky, která je součástí datového kanálu, nebo je použít jako zdroj dat analytiky dat.
Jak používat toky dat Gen2
Datoví inženýři tradičně tráví významný čas extrakcí, transformací a načítáním dat do spotřebního formátu pro podřízenou analýzu. Cílem toků dat Gen2 je poskytnout snadný a opakovaně použitelný způsob provádění úloh ETL pomocí Power Query Online.
Pokud se rozhodnete použít jenom datový kanál, zkopírujete data a pak použijete preferovaný programovací jazyk k extrakci, transformaci a načtení dat. Alternativně můžete nejprve vytvořit tok dat Gen2, který extrahuje a transformuje data. Data můžete také načíst do jezera a dalších cílů. Firma teď může snadno využívat kurátorovaný sémantický model.
Přidání cíle dat do toku dat je volitelné a tok dat zachová všechny kroky transformace. Pokud chcete po transformaci provést jiné úlohy nebo načíst data do jiného cíle, vytvořte datový kanál a přidejte do orchestrace aktivitu Toku dat Gen2.
Další možností může být použití datového kanálu a toku dat Gen2 pro proces ELT (extrakce, načtení, transformace). V této objednávce byste použili kanál k extrakci a načtení dat do preferovaného cíle, jako je je lakehouse. Pak byste vytvořili tok dat Gen2, který se připojí k datům Lakehouse, aby se vyčistil a transformoval data. V tomto případě byste toku dat nabídli jako kurátorovaný sémantický model pro datové analytiky, kteří vyvinuli sestavy.
Toky dat můžou být také horizontálně dělené. Jakmile vytvoříte globální tok dat, můžou datoví analytici použít toky dat k vytvoření specializovaných sémantických modelů pro konkrétní potřeby.
Toky dat umožňují propagovat opakovaně použitelnou logiku ETL, která brání nutnosti vytvářet další připojení ke zdroji dat. Toky dat nabízejí širokou škálu transformací a dají se spouštět ručně, podle plánu aktualizace nebo jako součást orchestrace datového kanálu.
Tip
Zjišťujte tok dat, aby se datoví analytici mohli připojit také k toku dat prostřednictvím Power BI Desktopu. Tím se snižuje příprava dat pro vývoj sestav.
Výhody a omezení
V Microsoft Fabric existuje více než jeden způsob, jak data ETL nebo ELT. Zvažte výhody a omezení používání toků dat Gen2.
Výhody:
- Rozšiřte data s konzistentními daty, jako je standardní tabulka dimenzí kalendářních dat.
- Povolit uživatelům samoobslužných služeb přístup k podmnožině datového skladu samostatně.
- Optimalizujte výkon pomocí toků dat, které umožňují extrahovat data jednou pro opakované použití, což zkracuje dobu aktualizace dat pro pomalejší zdroje.
- Zjednodušte složitost zdroje dat tím, že zpřístupňujete toky dat jenom větším skupinám analytiků.
- Zajistěte konzistenci a kvalitu dat tím, že uživatelům umožníte data před načtením do cíle vyčistit a transformovat.
- Zjednodušte integraci dat tím, že poskytuje rozhraní s nízkým kódem, které ingestuje data z různých zdrojů.
Omezení:
- Toky dat nejsou náhradou za datový sklad.
- Zabezpečení na úrovni řádků se nepodporuje.
- Vyžaduje se pracovní prostor kapacity infrastruktury.