Rychlé kopírování v tocích dat Gen2
Tento článek popisuje funkci rychlého kopírování v tocích dat Gen2 pro Data Factory v Microsoft Fabric. Toky dat pomáhají ingestovat a transformovat data. Díky zavedení horizontálního navýšení kapacity toku dat pomocí výpočetních prostředků SQL DW můžete transformovat data ve velkém měřítku. Nejprve je však potřeba ingestovat vaše data. Díky zavedení rychlého kopírování můžete ingestovat terabajty dat se snadným prostředím toků dat, ale škálovatelným back-endem aktivity kopírování kanálu.
Po povolení této funkce toky dat automaticky přepínají back-end, když velikost dat překročí určitou prahovou hodnotu, aniž by při vytváření toků dat museli cokoli změnit. Po aktualizaci toku dat můžete zkontrolovat historii aktualizace a zjistit, jestli se během spuštění použila rychlá kopie, a to tak, že se podíváte na typ modulu , který se tam zobrazí.
Pokud je povolená možnost Vyžadovat rychlé kopírování, aktualizace toku dat se zruší, pokud se nepoužívá rychlá kopie. To vám pomůže vyhnout se čekání na vypršení časového limitu aktualizace. Toto chování může být užitečné také v ladicí relaci k otestování chování toku dat s daty a zkrácení doby čekání. Pomocí indikátorů rychlého kopírování v podokně kroků dotazu můžete snadno zkontrolovat, jestli se váš dotaz dá spustit pomocí rychlého kopírování.
Požadavky
- Musíte mít kapacitu Fabric.
- Pro data souborů jsou soubory ve formátu .csv nebo parquet nejméně 100 MB a jsou uložené v Azure Data Lake Storage (ADLS) Gen2 nebo účtu úložiště objektů blob.
- Pro databázi včetně Azure SQL DB a PostgreSQL, 5 milionů řádků nebo více dat ve zdroji dat.
Poznámka:
Prahovou hodnotu můžete obejít tak, že vynutíte rychlé kopírování výběrem nastavení Vyžadovat rychlé kopírování.
Podpora konektorů
Rychlé kopírování se v současné době podporuje pro následující konektory Dataflow Gen2:
- ADLS Gen2
- Blob Storage
- Azure SQL DB
- Jezero
- PostgreSQL
- Místní SQL Server
- Sklad
- Oracle
- Snowflake
Aktivita kopírování podporuje pouze několik transformací při připojování ke zdroji souborů:
- Kombinovat soubory
- Vyberte sloupce
- Změna datových typů
- Přejmenování sloupce
- Odebrání sloupce
Další transformace můžete dál použít rozdělením kroků příjmu dat a transformace do samostatných dotazů. První dotaz ve skutečnosti načte data a druhý dotaz odkazuje na výsledky, aby bylo možné použít výpočetní prostředky DW. U zdrojů SQL se podporuje jakákoli transformace, která je součástí nativního dotazu.
Když dotaz přímo načtete do výstupního cíle, aktuálně se podporují jenom cíle Lakehouse. Pokud chcete použít jiný výstupní cíl, můžete nejprve vytvořit fázi dotazu a odkazovat na něj později.
Jak používat rychlé kopírování
Přejděte na příslušný koncový bod infrastruktury.
Přejděte do pracovního prostoru Premium a vytvořte tok dat Gen2.
Na kartě Domů nového toku dat vyberte Možnosti:
Potom v dialogovém okně Možnosti zvolte kartu Měřítko a zaškrtněte políčko Povolit použití konektorů rychlého kopírování a zapněte rychlou kopii. Potom zavřete dialogové okno Možnosti.
Vyberte Získat data a pak zvolte zdroj ADLS Gen2 a vyplňte podrobnosti o kontejneru.
Použijte funkci Kombinovat soubor.
Pokud chcete zajistit rychlé kopírování, použijte transformace uvedené pouze v části Podpory konektoru tohoto článku. Pokud potřebujete použít více transformací, nejprve připravte data a později na tento dotaz odkazujte. Proveďte další transformace v odkazovaném dotazu.
(Volitelné) Možnost Vyžadovat rychlé kopírování pro dotaz můžete nastavit tak, že na něj kliknete pravým tlačítkem a vyberete a povolíte tuto možnost.
(Volitelné) V současné době můžete nakonfigurovat pouze lakehouse jako výstupní cíl. V případě jakéhokoli jiného cíle připravte dotaz a odkazujte na něj později v jiném dotazu, kde můžete výstup provést do libovolného zdroje.
Zkontrolujte indikátory rychlého kopírování a zjistěte, jestli váš dotaz může běžet s rychlou kopií. Pokud ano, typ motoru zobrazí CopyActivity.
Publikujte tok dat.
Po dokončení aktualizace zkontrolujte, jestli byla použita rychlá kopie.
Jak rozdělit dotaz tak, aby využíval rychlé kopírování
Pokud chcete dosáhnout optimálního výkonu při zpracování velkých objemů dat pomocí Toku dat Gen2, použijte funkci Rychlé kopírování, která nejprve ingestuje data do přípravy a pak je transformuje ve velkém měřítku pomocí výpočetních prostředků SQL DW. Tento přístup výrazně zvyšuje komplexní výkon.
Abyste to mohli implementovat, indikátory rychlého kopírování vás můžou vést k rozdělení dotazu do dvou částí: příjmu dat do přípravných a rozsáhlých transformací pomocí výpočetních prostředků SQL DW. Jste vyzýváni, abyste co nejvíce hodnocení dotazu odeslali do Fast Copy, které lze použít k nahrání vašich dat. Když indikátory Rychlého kopírování říkají, že zbytek kroků nelze spustit pomocí Rychlého kopírování, můžete zbytek dotazu rozdělit s povolenou funkcí staging.
Indikátory diagnostiky kroků
Indikátor | Ikona | Popis |
---|---|---|
Tento krok bude posouzen pomocí rychlého přenosu dat | Indikátor rychlého kopírování vám řekne, že dotaz až do tohoto kroku podporuje rychlé kopírování. | |
Tento krok nepodporuje rychlé kopírování | Indikátor rychlého kopírování ukazuje, že tento krok nepodporuje funkci Rychlé kopírování. | |
Jeden nebo více kroků ve vašem dotazu není podporován rychlou funkcí dotazu. | Indikátor rychlého kopírování ukazuje, že některé kroky v tomto dotazu podporují rychlé kopírování, zatímco jiné ne. Pokud chcete dotaz optimalizovat, rozdělte ho: žluté kroky (potenciálně podporované rychlým kopírováním) a červené kroky (nepodporované). |
Podrobné pokyny
Po dokončení logiky transformace dat v Toku dat Gen2 vyhodnocuje indikátor rychlého kopírování každý krok a určí, kolik kroků může využít rychlé kopírování pro lepší výkon.
V následujícím příkladu se poslední krok zobrazuje červeně, což znamená, že krok s Group By není podporován Fast Copy. Všechny předchozí kroky se žlutou barvou ale mohou být podporovány službou Fast Copy.
Pokud v tuto chvíli přímo publikujete a spustíte Tok dat Gen2, nebude modul Rychlé kopírování používat k načtení dat jako obrázek níže:
Pokud chcete použít modul rychlého kopírování a zlepšit výkon toku dat Gen2, můžete dotaz rozdělit na dvě části: příjem dat do přípravné a rozsáhlé transformace pomocí výpočetních prostředků SQL DW, jak je znázorněno níže:
Odeberte transformace (s červenou barvou), které funkce Fast Copy nepodporuje, spolu s cílem (pokud je definováno).
Indikátor rychlého kopírování teď u zbývajících kroků zobrazuje zelenou barvu, což znamená, že váš první dotaz může využít rychlé kopírování k lepšímu výkonu.
Vyberte akci pro první dotaz, pak zvolte Povolit nastavení a reference.
V novém odkazovaném dotazu znovu přidejte transformaci "Seskupení podle" a cílové místo (pokud je použitelné).
Publikujte a aktualizujte tok dat Gen2. Teď ve svém Dataflow Gen2 uvidíte dva dotazy a celková doba trvání se výrazně zkrátila.
První dotaz ingestuje data do přípravy pomocí funkce Rychlé kopírování.
Druhý dotaz provádí rozsáhlé transformace pomocí výpočetních prostředků SQL DW.
První dotaz:
Druhý dotaz:
Známá omezení
- K podpoře rychlého kopírování je potřeba místní brána dat verze 3000.214.2 nebo novější.
- Brána virtuální sítě není podporovaná.
- Zápis dat do existující tabulky v Lakehouse se nepodporuje.
- Pevné schéma není podporováno.