Sdílet prostřednictvím


Změna zachytávání dat ve službě Azure Data Factory a Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje zachytávání dat změn (CDC) ve službě Azure Data Factory.

Další informace najdete v přehledu služby Azure Data Factory nebo přehledu služby Azure Synapse.

Přehled

Když provádíte integraci dat a procesy ETL v cloudu, mohou vaše úlohy fungovat lépe a efektivněji, když čtete jenom zdrojová data, která se změnila od posledního spuštění kanálu, a ne vždy dotazování celé datové sady při každém spuštění. ADF poskytuje několik různých způsobů, jak snadno získat rozdílová data pouze z posledního spuštění.

Změna prostředku objektu pro vytváření dat

Nejjednodušším a nejrychlejším způsobem, jak začít pracovat v datové továrně pomocí CDC, je prostřednictvím prostředku Change Data Capture na úrovni továrny. V hlavním návrháři kanálu vyberte Nový v části Prostředky továrny a vytvořte nový záznam změn dat. Prostředek továrny CDC poskytuje prostředí pro konfiguraci, ve kterém můžete vybrat zdroje a cíle, použít volitelné transformace a pak začít zachytávat data. S prostředkem CDC nemusíte navrhovat kanály ani aktivity toku dat. Během zpracování dat se vám také účtují pouze čtyři jádra toků dat pro obecné účely. Můžete nastavit upřednostňovanou latenci, kterou ADF používá k probuzení a vyhledání změněných dat. Tato počáteční kontrola je jediný čas, kdy se vám fakturuje. Prostředek CDC nejvyšší úrovně je také metoda ADF průběžného spouštění procesů. Kanály v ADF jsou pouze dávkové, ale prostředek CDC může běžet nepřetržitě.

Nativní zachytávání dat změn v mapování toku dat

Tok dat mapování ADF dokáže automaticky rozpoznat a extrahovat změněná data, včetně vložených, aktualizovaných a odstraněných řádků ze zdrojových databází. K identifikaci změn nejsou potřeba žádné sloupce časového razítka ani ID, protože v databázích používá nativní technologii zachytávání dat změn. Když zřetězíte zdrojovou transformaci a odkaz na transformaci jímky na datovou sadu databáze v toku dat mapování, uvidíte, že se změny ve zdrojové databázi automaticky použijí na cílovou databázi, abyste mohli snadno synchronizovat data mezi dvěma tabulkami. Můžete také přidat jakékoli transformace mezi jakoukoli obchodní logiku pro zpracování rozdílových dat. Při definování cíle dat jímky můžete v jímce nastavit operace vložení, aktualizace, upsertu a odstranění bez nutnosti transformace alter row, protože ADF dokáže automaticky rozpoznat tvůrce řádků.

Podporované konektory

Automatická přírůstková extrakce v mapování toku dat

Nově aktualizované řádky nebo aktualizované soubory je možné automaticky rozpoznat a extrahovat mapováním toku dat ADF ze zdrojových úložišť. Pokud chcete získat rozdílová data z databází, je přírůstkový sloupec nutný k identifikaci změn. Pokud chcete načíst nové soubory nebo aktualizované soubory jenom z úložiště úložiště, mapování toku dat ADF právě funguje přes čas poslední změny souborů.

Podporované konektory

Extrakce rozdílových dat spravovaných zákazníkem v kanálu

Vždy můžete vytvořit vlastní kanál pro extrakci rozdílových dat pro všechna podporovaná úložiště dat ADF, včetně použití vyhledávací aktivity k získání hodnoty meze uložené v tabulce externích ovládacích prvků, aktivitě kopírování nebo mapování aktivity toku dat, abyste mohli dotazovat rozdílová data proti sloupci časového razítka nebo ID, a aktivity SP zapisují novou hodnotu meze zpět do tabulky externích ovládacích prvků pro další spuštění. Pokud chcete načíst nové soubory jenom z úložiště úložiště, můžete buď odstranit soubory pokaždé, když byly přesunuty do cíle úspěšně, nebo pomocí časového oddílu složky nebo názvů souborů nebo času poslední změny identifikovat nové soubory.

Osvědčené postupy

Změna zachytávání dat z databází

  • Nativní zachytávání dat změn se vždy doporučuje jako nejjednodušší způsob, jak získat data změn. Přináší také mnohem menší zátěž zdrojové databázi, když ADF extrahuje data změn pro další zpracování.
  • Pokud vaše úložiště databází nejsou součástí seznamu konektorů ADF s podporou nativního zachytávání dat změn, doporučujeme zkontrolovat možnost automatické přírůstkové extrakce, ve které je potřeba zachytávat změny pouze vstupním přírůstkovým sloupcem. ADF se postará o zbytek včetně vytvoření dynamického dotazu pro rozdílové načítání a správu kontrolního bodu pro každé spuštění aktivity.
  • Extrakce rozdílových dat spravovaná zákazníkem v kanálu pokrývá všechny podporované databáze ADF a poskytuje flexibilitu pro kontrolu všeho sami.

Změna zachytávání souborů ze souborových úložišť

  • Pokud chcete načíst data ze služby Azure Blob Storage, Azure Data Lake Storage Gen2 nebo Azure Data Lake Storage Gen1, nabízí tok dat mapování možnost získat nové nebo aktualizované soubory pouze jedním jednoduchým výběrem. Je to nejjednodušší a doporučený způsob, jak dosáhnout rozdílového zatížení z těchto úložišť založených na souborech při mapování toku dat.
  • Můžete získat další osvědčené postupy.

CheckPoint

Když povolíte nativní zachytávání dat změn nebo možnosti automatické přírůstkové extrakce v toku dat mapování ADF, pomůže ADF spravovat kontrolní bod, aby se zajistilo, že každá aktivita automaticky čte zdrojová data, která se od posledního spuštění kanálu změnila. Ve výchozím nastavení je kontrolní bod propojený s názvem kanálu a aktivity. Pokud změníte název kanálu nebo název aktivity, kontrolní bod se resetuje, což vede k tomu, že v dalším běhu začnete od začátku nebo se změny provedou od nynějška. Pokud chcete změnit název kanálu nebo název aktivity, ale přesto zachovat kontrolní bod, abyste získali změněná data z posledního spuštění automaticky, použijte k tomu vlastní klíč kontrolního bodu v aktivitě toku dat. Pravidlo pojmenování vlastního klíče kontrolního bodu je stejné jako propojené služby, datové sady, kanály a toky dat.

Při ladění kanálu funguje tato funkce stejně. Kontrolní bod se resetuje, když během spuštění ladění aktualizujete prohlížeč. Jakmile budete s výsledkem kanálu spokojení při spuštění ladění, můžete kanál publikovat a aktivovat. V okamžiku, kdy poprvé aktivujete publikovaný kanál, se automaticky restartuje od začátku nebo od této chvíle dojde ke změnám.

V části monitorování máte vždy možnost znovu spustit kanál. Když to uděláte, změněná data se vždy zaznamenávají z předchozího kontrolního bodu vybraného kanálu.

Kurzy

Následující kurzy slouží ke spuštění zachytávání dat změn ve službě Azure Data Factory a Azure Synapse Analytics.

Šablony

Níže jsou uvedené šablony, které používají zachytávání dat změn ve službě Azure Data Factory a Azure Synapse Analytics.