Zachycení změněná data s vývojem schématu ze služby Azure SQL Database do jímky Delta pomocí prostředku pro zachytávání dat změn
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
V tomto článku použijete uživatelské rozhraní služby Azure Data Factory k vytvoření prostředku CDC (Change Data Capture). Prostředek převezme změněná data ze zdroje Azure SQL Database a přidá je do Delta Lake uloženého v Azure Data Lake Storage Gen2 v reálném čase. Tato aktivita předvádí podporu vývoje schématu pomocí prostředku CDC mezi zdrojem a jímkou.
V tomto článku získáte informace o těchto tématech:
- Vytvořte prostředek CDC.
- Proveďte dynamické změny schématu ve zdrojové tabulce.
- Ověřte změny schématu v cílové jímce Delta.
Vzor konfigurace můžete upravit a rozšířit v tomto článku.
Požadavky
Než začnete s postupy v tomto článku, ujistěte se, že máte tyto zdroje informací:
- Předplatné Azure. Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure.
- Databáze SQL. Azure SQL Database použijete jako zdrojové úložiště dat. Pokud databázi SQL nemáte, vytvořte ji na webu Azure Portal.
- Účet úložiště. Delta Lake uložené v Azure Data Lake Storage Gen2 použijete jako cílové úložiště dat. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu úložiště pro postup jeho vytvoření.
Vytvoření artefaktu CDC
Přejděte do podokna Autor ve vaší datové továrně. Pod kanály se zobrazí nový artefakt nejvyšší úrovně s názvem Change Data Capture (Preview).
Najeďte myší na Change Data Capture (Preview), dokud se nezobrazí tři tečky. Pak vyberte akce Change Data Capture (Preview).
Vyberte Nový CDC (Preview). Tento krok otevře informační panel pro zahájení procesu s asistencí.
Zobrazí se výzva k pojmenování prostředku CDC. Ve výchozím nastavení je název "adfcdc" s číslem, které se zvýší o 1. Tento výchozí název můžete nahradit zvoleným názvem.
V rozevíracím seznamu vyberte zdroj dat. V tomto článku vyberte Azure SQL Database.
Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.
Po výběru propojené služby se zobrazí výzva k výběru zdrojových tabulek. Pomocí zaškrtávacích políček vyberte zdrojové tabulky a pak pomocí rozevíracího seznamu vyberte hodnotu přírůstkového sloupce .
V podokně jsou uvedeny pouze tabulky s podporovanými datovými typy přírůstkových sloupců.
Poznámka:
Pokud chcete povolit CDC s vývojem schématu ve zdroji služby Azure SQL Database, zvolte tabulky založené na sloupcích vodoznaků místo tabulek, které jsou povolené nativní SQL CDC.
Po výběru zdrojových tabulek vyberte Pokračovat a nastavte cíl dat.
Pomocí rozevíracího seznamu vyberte hodnotu cílového typu . V tomto článku vyberte Delta.
Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.
Vyberte cílovou složku dat. Můžete použít jednu z těchto:
- Tlačítko Procházet v cílové základní cestě, které vám pomůže automaticky naplnit cestu procházení pro všechny nové tabulky vybrané pro zdroj.
- Pomocí tlačítka Procházet mimo položku vyberte cestu ke složce.
Po výběru cesty ke složce vyberte tlačítko Pokračovat .
Zobrazí se nová karta pro zachytávání dat změn. Tato karta je studio CDC, kde můžete nakonfigurovat nový prostředek.
Nové mapování se automaticky vytvoří za vás. Výběry zdrojové tabulky a cílové tabulky pro mapování můžete aktualizovat pomocí rozevíracích seznamů.
Po výběru tabulek se jejich sloupce ve výchozím nastavení mapují zapnutým přepínačem Automatické mapování . Automatické mapování automaticky mapuje sloupce podle názvu v jímce, při vývoji zdrojového schématu převezme nové změny sloupců a tyto informace se přetáčí do podporovaných typů jímky.
Poznámka:
Vývoj schématu funguje jenom v případech, kdy je zapnutý přepínač Automatické mapování . Informace o úpravě mapování sloupců nebo zahrnutí transformací najdete v tématu Zachycení změněných dat pomocí prostředku pro zachytávání dat změn.
Vyberte odkaz Klíče a pak vyberte sloupec Klíče, který se má použít ke sledování operací odstranění.
Po dokončení mapování nastavte latenci CDC pomocí tlačítka Nastavit latenci .
Vyberte latenci cdC a pak vyberte Použít , aby se změny udělaly.
Ve výchozím nastavení je latence nastavená na 15 minut. Příklad v tomto článku používá pro latenci možnost v reálném čase . Latence v reálném čase průběžně přebírá změny ve zdrojových datech v intervalech kratších než 1 minutu.
V případě jiných latencí (například pokud vyberete 15 minut), bude zachytávání dat změn zpracovávat zdrojová data a vyzvednout všechna změněná data od posledního zpracování času.
Po dokončení konfigurace CDC vyberte Publikovat vše a publikujte provedené změny.
Poznámka:
Pokud změny nepublikujete, nebudete moct spustit prostředek CDC. Tlačítko Start v dalším kroku nebude k dispozici.
Vyberte Start a začněte spouštět zachytávání dat změn.
Teď, když je zachytávání dat změn spuštěné, můžete:
Na stránce monitorování můžete zjistit, kolik změn (vložení, aktualizace nebo odstranění) bylo přečteno a zapsáno spolu s dalšími diagnostickými informacemi.
Ověřte, že data změn přišla do Delta Lake uložená ve službě Azure Data Lake Storage Gen2 ve formátu Delta.
Ověřte schéma dat změn, která přišla.
Provádění dynamických změn na úrovni schématu ve zdrojových tabulkách
Přidejte do zdrojové tabulky nový sloupec PersonalEmail pomocí
ALTER TABLE
příkazu T-SQL, jak je znázorněno v následujícím příkladu.Ověřte, že se nový sloupec PersonalEmail zobrazí v existující tabulce.
Ověření změn schématu v jímce Delta
Ověřte, že se nový sloupec PersonalEmail zobrazí v jímce Delta. Teď víte, že změna dat se změnami schématu přišla do cíle.