Sdílet prostřednictvím


Zachycení změněná data s vývojem schématu ze služby Azure SQL Database do jímky Delta pomocí prostředku pro zachytávání dat změn

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto článku použijete uživatelské rozhraní služby Azure Data Factory k vytvoření prostředku CDC (Change Data Capture). Prostředek převezme změněná data ze zdroje Azure SQL Database a přidá je do Delta Lake uloženého v Azure Data Lake Storage Gen2 v reálném čase. Tato aktivita předvádí podporu vývoje schématu pomocí prostředku CDC mezi zdrojem a jímkou.

V tomto článku získáte informace o těchto tématech:

  • Vytvořte prostředek CDC.
  • Proveďte dynamické změny schématu ve zdrojové tabulce.
  • Ověřte změny schématu v cílové jímce Delta.

Vzor konfigurace můžete upravit a rozšířit v tomto článku.

Požadavky

Než začnete s postupy v tomto článku, ujistěte se, že máte tyto zdroje informací:

  • Předplatné Azure. Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure.
  • Databáze SQL. Azure SQL Database použijete jako zdrojové úložiště dat. Pokud databázi SQL nemáte, vytvořte ji na webu Azure Portal.
  • Účet úložiště. Delta Lake uložené v Azure Data Lake Storage Gen2 použijete jako cílové úložiště dat. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu úložiště pro postup jeho vytvoření.

Vytvoření artefaktu CDC

  1. Přejděte do podokna Autor ve vaší datové továrně. Pod kanály se zobrazí nový artefakt nejvyšší úrovně s názvem Change Data Capture (Preview).

    Snímek obrazovky s novým artefaktem nejvyšší úrovně pro zachytávání dat změn v podokně Prostředky továrny

  2. Najeďte myší na Change Data Capture (Preview), dokud se nezobrazí tři tečky. Pak vyberte akce Change Data Capture (Preview).

    Snímek obrazovky s tlačítkem pro akce zachytávání změn dat, které se zobrazují nad novým artefaktem nejvyšší úrovně

  3. Vyberte Nový CDC (Preview). Tento krok otevře informační panel pro zahájení procesu s asistencí.

    Snímek obrazovky se seznamem akcí zachytávání dat změn

  4. Zobrazí se výzva k pojmenování prostředku CDC. Ve výchozím nastavení je název "adfcdc" s číslem, které se zvýší o 1. Tento výchozí název můžete nahradit zvoleným názvem.

    Snímek obrazovky s textovým polem pro aktualizaci názvu prostředku

  5. V rozevíracím seznamu vyberte zdroj dat. V tomto článku vyberte Azure SQL Database.

    Snímek obrazovky s informačním rámečkem s asistencí procesu s možnostmi zdroje v rozevíracím seznamu

  6. Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.

    Snímek obrazovky s polem pro výběr nebo vytvoření propojené služby

  7. Po výběru propojené služby se zobrazí výzva k výběru zdrojových tabulek. Pomocí zaškrtávacích políček vyberte zdrojové tabulky a pak pomocí rozevíracího seznamu vyberte hodnotu přírůstkového sloupce .

    Snímek obrazovky znázorňující výběr zdrojové tabulky a přírůstkového sloupce

    V podokně jsou uvedeny pouze tabulky s podporovanými datovými typy přírůstkových sloupců.

    Poznámka:

    Pokud chcete povolit CDC s vývojem schématu ve zdroji služby Azure SQL Database, zvolte tabulky založené na sloupcích vodoznaků místo tabulek, které jsou povolené nativní SQL CDC.

  8. Po výběru zdrojových tabulek vyberte Pokračovat a nastavte cíl dat.

    Snímek obrazovky s tlačítkem Pokračovat v procesu s asistencí pro výběr cíle dat

  9. Pomocí rozevíracího seznamu vyberte hodnotu cílového typu . V tomto článku vyberte Delta.

    Snímek obrazovky s rozevírací nabídkou všech cílových typů dat

  10. Zobrazí se výzva k výběru propojené služby. Vytvořte novou propojenou službu nebo vyberte existující službu.

    Snímek obrazovky s polem pro výběr nebo vytvoření propojené služby s vaším cílem dat

  11. Vyberte cílovou složku dat. Můžete použít jednu z těchto:

    • Tlačítko Procházet v cílové základní cestě, které vám pomůže automaticky naplnit cestu procházení pro všechny nové tabulky vybrané pro zdroj.
    • Pomocí tlačítka Procházet mimo položku vyberte cestu ke složce.

    Snímek obrazovky s ikonou složky pro vyhledání cesty ke složce

  12. Po výběru cesty ke složce vyberte tlačítko Pokračovat .

    Snímek obrazovky s tlačítkem Pokračovat v procesu s asistencí pokračujte dalším krokem.

  13. Zobrazí se nová karta pro zachytávání dat změn. Tato karta je studio CDC, kde můžete nakonfigurovat nový prostředek.

    Snímek obrazovky se sadou Change Data Capture Studio

    Nové mapování se automaticky vytvoří za vás. Výběry zdrojové tabulky a cílové tabulky pro mapování můžete aktualizovat pomocí rozevíracích seznamů.

    Snímek obrazovky s mapováním zdroje na cíl v nástroji Change Data Capture Studio

  14. Po výběru tabulek se jejich sloupce ve výchozím nastavení mapují zapnutým přepínačem Automatické mapování . Automatické mapování automaticky mapuje sloupce podle názvu v jímce, při vývoji zdrojového schématu převezme nové změny sloupců a tyto informace se přetáčí do podporovaných typů jímky.

    Snímek obrazovky s přepínačem pro zapnuté automatické mapování

    Poznámka:

    Vývoj schématu funguje jenom v případech, kdy je zapnutý přepínač Automatické mapování . Informace o úpravě mapování sloupců nebo zahrnutí transformací najdete v tématu Zachycení změněných dat pomocí prostředku pro zachytávání dat změn.

  15. Vyberte odkaz Klíče a pak vyberte sloupec Klíče, který se má použít ke sledování operací odstranění.

    Snímek obrazovky s odkazem pro povolení výběru sloupce Klíče

    Snímek obrazovky s výběrem sloupce Klíče pro vybraný zdroj

  16. Po dokončení mapování nastavte latenci CDC pomocí tlačítka Nastavit latenci .

    Snímek obrazovky s tlačítkem Nastavit latenci v horní části plátna

  17. Vyberte latenci cdC a pak vyberte Použít , aby se změny udělaly.

    Ve výchozím nastavení je latence nastavená na 15 minut. Příklad v tomto článku používá pro latenci možnost v reálném čase . Latence v reálném čase průběžně přebírá změny ve zdrojových datech v intervalech kratších než 1 minutu.

    V případě jiných latencí (například pokud vyberete 15 minut), bude zachytávání dat změn zpracovávat zdrojová data a vyzvednout všechna změněná data od posledního zpracování času.

    Snímek obrazovky s možnostmi nastavení latence

  18. Po dokončení konfigurace CDC vyberte Publikovat vše a publikujte provedené změny.

    Snímek obrazovky s tlačítkem publikovat v horní části plátna

    Poznámka:

    Pokud změny nepublikujete, nebudete moct spustit prostředek CDC. Tlačítko Start v dalším kroku nebude k dispozici.

  19. Vyberte Start a začněte spouštět zachytávání dat změn.

    Snímek obrazovky s tlačítkem Start v horní části plátna

Teď, když je zachytávání dat změn spuštěné, můžete:

  • Na stránce monitorování můžete zjistit, kolik změn (vložení, aktualizace nebo odstranění) bylo přečteno a zapsáno spolu s dalšími diagnostickými informacemi.

    Snímek obrazovky se stránkou monitorování vybraného záznamu dat změn

    Snímek obrazovky se stránkou monitorování vybraného záznamu dat změn s podrobným zobrazením

  • Ověřte, že data změn přišla do Delta Lake uložená ve službě Azure Data Lake Storage Gen2 ve formátu Delta.

    Snímek obrazovky cílové složky Delta

  • Ověřte schéma dat změn, která přišla.

    Snímek obrazovky se souborem Delta

Provádění dynamických změn na úrovni schématu ve zdrojových tabulkách

  1. Přidejte do zdrojové tabulky nový sloupec PersonalEmail pomocí ALTER TABLE příkazu T-SQL, jak je znázorněno v následujícím příkladu.

    Snímek obrazovky s příkazem ALTER v nástroji Azure Data Studio

  2. Ověřte, že se nový sloupec PersonalEmail zobrazí v existující tabulce.

    Snímek obrazovky s návrhem nové tabulky s přidaným sloupcem pro osobní e-mail

Ověření změn schématu v jímce Delta

Ověřte, že se nový sloupec PersonalEmail zobrazí v jímce Delta. Teď víte, že změna dat se změnami schématu přišla do cíle.

Snímek obrazovky se souborem Delta se změnou schématu