Průvodce rozhodováním Microsoft Fabric: aktivita kopírování, tok dat nebo Spark

Článek
01/28/2025

Tento referenční průvodce a ukázkové scénáře vám pomůžou při rozhodování, jestli potřebujete aktivitu kopírování, tok dat nebo Spark pro úlohy Microsoft Fabric.

Aktivita kopírování, tok dat a vlastnosti Sparku

	aktivity kopírování kanálu	Datový tok Gen 2	Spark
případ použití	Migrace data lake a datového skladu, příjem dat, odlehčená transformace	Příjem dat transformace dat, zpracování dat profilace dat	Příjem dat transformace dat, zpracování dat profilace dat
primární persona vývojáře	Datový inženýr, integrátor dat	Datový inženýr, integrátor dat, obchodní analytik	Datový inženýr, datový vědec, vývojář dat
sada dovedností primárního vývojáře	ETL, SQL JSON	ETL, M, SQL	Spark (Scala, Python, Spark SQL, R)
kód napsaný	Žádný kód, nízký kód	Žádný kód, nízký kód	Kód
objem dat	Nízká až vysoká	Nízká až vysoká	Nízká až vysoká
rozhraní pro vývoj	Čaroděj plátno	Power Query	Zápisník Definice úlohy Sparku
zdroje	Více než 30 konektorů	Více než 150 konektorů	Stovky knihoven Sparku
cíle	Více než 18 konektorů	Jezero, Databáze Azure SQL, Azure Data Explorer, Azure Synapse Analytics	Stovky knihoven Sparku
složitost transformace	Nízký: lehký – převod typu, mapování sloupců, sloučení/rozdělení souborů, zploštění hierarchie	Nízká až vysoká: Více než 300 transformačních funkcí	Nízká až vysoká: podpora nativních knihoven Spark a opensourcových knihoven

Projďete si následující tři scénáře, které vám pomohou s výběrem způsobu, jak pracovat s daty ve Fabric.

Scénář 1

Leo, datový inženýr, potřebuje ingestovat velký objem dat z externích systémů, a to jak z místního prostředí, tak z cloudu. Mezi tyto externí systémy patří databáze, systémy souborů a rozhraní API. Leo nechce psát a udržovat kód pro každou operaci přesunu dat nebo konektoru. Chce dodržovat osvědčené postupy pro vrstvy medailónu, jako jsou bronzová, stříbrná a zlatá. Leo nemá žádné zkušenosti se Sparkem, a proto dává přednost uživatelskému rozhraní typu drag and drop co nejčastěji a s minimálním kódováním. A také chce zpracovávat data podle plánu.

Prvním krokem je získání nezpracovaných dat do bronzové vrstvy datového jezera z datových zdrojů Azure a z různých externích zdrojů (například Snowflake Web, REST, AWS S3, GCS atd.). Chce konsolidované lakehouse, aby všechna data z různých LOB, lokálních a cloudových zdrojů se nacházela na jednom místě. Leo zkontroluje možnosti a vybere aktivitu kopírování pipeline jako vhodnou volbu pro svou nezpracovanou binární kopii. Tento model platí pro historickou i přírůstkovou aktualizaci dat. Při aktivitě kopírování může Leo bez potřeby kódu načíst Gold data do datového skladu, pokud to vyžaduje situace. Kanály pak poskytují vysoce škálovatelný příjem dat, který umožňuje přesouvat data na úrovni petabajtů. Aktivita kopírování je nejlepší volbou pro low-code a bez kódu, pokud jde o přesun petabajtů dat do lakehouse a datových skladů z různých zdrojů, a to buď ad-hoc, nebo podle plánu.

Scénář 2

Mary je datová inženýrka s hlubokými znalostmi různých požadavků na analytické reporty pro různé části podnikání. Nadřazený tým úspěšně implementoval řešení pro migraci historických a přírůstkových dat z více podnikových linií do společného lakehouse. Mary má za úkol vyčistit data, použít obchodní logiky a načíst je do několika úložišť (jako je Azure SQL DB, ADX a lakehouse) při přípravě na jejich příslušné týmy pro vytváření reportů.

Mary je zkušený uživatel Power Query a objem dat je v nízkém až středním rozsahu, aby dosáhl požadovaného výkonu. Toky dat poskytují rozhraní bez kódu nebo nízkého kódu pro ingestování dat ze stovek zdrojů dat. S toky dat můžete transformovat data pomocí 300+ možností transformace dat a zapisovat výsledky do více cílů pomocí snadno použitelného, vysoce vizuálního uživatelského rozhraní. Mary zkontroluje možnosti a rozhodne se, že má smysl používat Tok dat Gen2 jako preferovanou možnost transformace.

Scénář 3

Adam je datový inženýr pracující ve velké maloobchodní společnosti, která používá lakehouse k ukládání a analýze zákaznických dat. V rámci své práce zodpovídá Adam za vytváření a údržbu datových kanálů, které extrahují, transformují a načítají data do jezera. Jedním z obchodních požadavků společnosti je provádět analytiku recenzí zákazníků, aby tak získali přehled o zkušenostech zákazníků a zlepšili své služby.

Adam rozhodne, že nejlepší možností je použít Spark k sestavení logiky extrakce a transformace. Spark poskytuje distribuovanou výpočetní platformu, která dokáže paralelně zpracovávat velké objemy dat. Zapisuje aplikaci Spark pomocí Pythonu nebo Scaly, která čte strukturovaná, částečně strukturovaná a nestrukturovaná data z OneLake pro recenze zákazníků a zpětnou vazbu. Aplikace vyčistí, transformuje a zapisuje data do tabulek Delta v jezeře. Data jsou pak připravená k použití pro podřízenou analýzu.

Jak kopírovat data pomocí aktivity kopírování
rychlý start : Vytvoření prvního toku dat pro získání a transformaci dat
Vytvoření definice úlohy Apache Spark v Fabric

Sdílet prostřednictvím

Průvodce rozhodováním Microsoft Fabric: aktivita kopírování, tok dat nebo Spark

Aktivita kopírování, tok dat a vlastnosti Sparku

Scénář 1

Scénář 2

Scénář 3

Váš názor

Další materiály

Sdílet prostřednictvím

Průvodce rozhodováním Microsoft Fabric: aktivita kopírování, tok dat nebo Spark

Aktivita kopírování, tok dat a vlastnosti Sparku

Scénář 1

Scénář 2

Scénář 3

Související obsah

Váš názor

Další materiály