Zabezpečená transformace dat pomocí mapování toku dat

Článek
10/03/2024

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu použijete uživatelské rozhraní služby Data Factory k vytvoření kanálu, který kopíruje a transformuje data ze zdroje Azure Data Lake Storage Gen2 na jímku Data Lake Storage Gen2 (obojí umožňuje přístup pouze k vybraným sítím) pomocí mapování toku dat ve spravované virtuální síti data Factory. Vzor konfigurace v tomto kurzu můžete rozšířit při transformaci dat pomocí mapování toku dat.

V tomto kurzu provedete následující kroky:

Vytvoření datové továrny
Vytvoření kanálu s aktivitou toku dat
Sestavte tok dat mapování se čtyřmi transformacemi.
Testovací spuštění kanálu
Monitorujte aktivitu toku dat.

Požadavky

Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
Účet služby Azure Storage. Data Lake Storage používáte jako úložiště dat zdroje a jímky . Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření. Ujistěte se, že účet úložiště umožňuje přístup jenom z vybraných sítí.

Soubor, který v tomto kurzu transformujeme, je moviesDB.csv, který najdete na tomto webu obsahu GitHubu. Pokud chcete soubor načíst z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Pokud chcete nahrát soubor do účtu úložiště, přečtěte si téma Nahrání objektů blob pomocí webu Azure Portal. Příklady budou odkazovat na kontejner s názvem sample-data.

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a otevřete uživatelské rozhraní služby Data Factory, abyste vytvořili kanál v datové továrně.

Otevřete Microsoft Edge nebo Google Chrome. V současné době uživatelské rozhraní služby Data Factory podporují pouze webové prohlížeče Microsoft Edge a Google Chrome.
V nabídce vlevo vyberte Vytvořit datovou továrnu pro analýzu>prostředků.>
Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

Název datové továrny musí být globálně jedinečný. Pokud se zobrazí chybová zpráva o hodnotě názvu, zadejte jiný název datové továrny (například názevADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.
Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.
U položky Skupina prostředků proveďte jeden z následujících kroků:
- Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.
- Vyberte Vytvořit novou a zadejte název skupiny prostředků.
Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.
Jako Verzi vyberte V2.
V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a Azure SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.
Vyberte Vytvořit.
Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Data Factory .
Výběrem možnosti Otevřít Azure Data Factory Studio spusťte uživatelské rozhraní služby Data Factory na samostatné kartě.

Vytvoření prostředí Azure IR ve spravované virtuální síti služby Data Factory

V tomto kroku vytvoříte prostředí Azure IR a povolíte službu Data Factory Managed Virtual Network.

Na portálu Data Factory přejděte na Spravovat a vyberte Nový a vytvořte nové prostředí Azure IR.
Na stránce nastavení prostředí Integration Runtime zvolte, jaké prostředí Integration Runtime se má vytvořit na základě požadovaných možností. V tomto kurzu vyberte Azure, v místním prostředí a potom klikněte na Pokračovat.
Vyberte Azure a potom kliknutím na Pokračovat vytvořte prostředí Azure Integration Runtime.
V části Konfigurace virtuální sítě (Preview) vyberte Povolit.
Vyberte Vytvořit.

Vytvoření kanálu s aktivitou toku dat

V tomto kroku vytvoříte kanál, který obsahuje aktivitu toku dat.

Na domovské stránce služby Azure Data Factory vyberte Orchestrate (Orchestrate).
V podokně vlastností kanálu zadejte transformMovies pro název kanálu.
V podokně Aktivity rozbalte položku Přesunout a transformovat. Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.
V místní nabídce Přidání toku dat vyberte Vytvořit nový tok dat a pak vyberte Mapování Tok dat. Až budete hotovi, vyberte OK .
Pojmenujte svůj tok dat TransformMovies v podokně vlastností.
Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clusterů trvá 5 až 7 minut, než se zahřejí, a pokud plánují vývoj Tok dat, doporučuje se nejprve zapnout ladění. Další informace naleznete v tématu Režim ladění.

Vytvoření logiky transformace na plátně toku dat

Po vytvoření toku dat se automaticky odešle na plátno toku dat. V tomto kroku vytvoříte tok dat, který vezme soubor moviesDB.csv ve službě Data Lake Storage a agreguje průměrné hodnocení comedies z roku 1910 do roku 2000. Potom tento soubor zapíšete zpět do Služby Data Lake Storage.

Přidání zdrojové transformace

V tomto kroku nastavíte Data Lake Storage Gen2 jako zdroj.

Na plátně toku dat přidejte zdroj výběrem pole Přidat zdroj .
Pojmenujte zdroj MoviesDB. Výběrem možnosti Nový vytvoříte novou zdrojovou datovou sadu.
Vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.
Vyberte Text s oddělovači a pak vyberte Pokračovat.
Pojmenujte datovou sadu MoviesDB. V rozevíracím seznamu propojené služby vyberte Nový.
Na obrazovce vytvoření propojené služby pojmenujte propojenou službu Data Lake Storage Gen2 ADLSGen2 a zadejte metodu ověřování. Pak zadejte přihlašovací údaje pro připojení. V tomto kurzu používáme klíč účtu pro připojení k našemu účtu úložiště.
Ujistěte se, že jste povolili interaktivní vytváření. Povolení může chvíli trvat.
Vyberte Test připojení. Měl by selhat, protože účet úložiště k němu neumožňuje přístup bez vytvoření a schválení privátního koncového bodu. V chybové zprávě by se měl zobrazit odkaz na vytvoření privátního koncového bodu, podle kterého můžete vytvořit spravovaný privátní koncový bod. Alternativou je přejít přímo na kartu Správa a podle pokynů v této části vytvořit spravovaný privátní koncový bod.
Nechte dialogové okno otevřené a přejděte do svého účtu úložiště.
Podle pokynů v této části schvalte privátní propojení.
Vraťte se do dialogového okna. Znovu vyberte Test připojení a výběrem možnosti Vytvořit nasaďte propojenou službu.
Na obrazovce pro vytvoření datové sady zadejte, kde se soubor nachází v poli Cesta k souboru. V tomto kurzu se soubor moviesDB.csv nachází v ukázkových datech kontejneru. Protože soubor obsahuje záhlaví, zaškrtněte políčko První řádek jako záhlaví . Pokud chcete importovat schéma hlaviček přímo ze souboru v úložišti, vyberte z připojení nebo úložiště . Až budete hotovi, vyberte OK .
Pokud se váš ladicí cluster spustil, přejděte na kartu Náhled dat ve zdrojové transformaci a vyberte Aktualizovat , abyste získali snímek dat. Pomocí náhledu dat můžete ověřit, jestli je transformace správně nakonfigurovaná.

Vytvoření spravovaného privátního koncového bodu

Pokud jste při otestování předchozího připojení nepoužíli hypertextový odkaz, postupujte podle cesty. Teď potřebujete vytvořit spravovaný privátní koncový bod, který se připojíte k propojené službě, kterou jste vytvořili.

Přejděte na kartu Spravovat .

Poznámka:

Karta Spravovat nemusí být k dispozici pro všechny instance služby Data Factory. Pokud ho nevidíte, můžete získat přístup k privátním koncovým bodům výběrem možnosti Vytvořit>privátní koncový bod připojení.>
Přejděte do části Spravované privátní koncové body .
V části Spravované privátní koncové body vyberte + Nový.
V seznamu vyberte dlaždici Azure Data Lake Storage Gen2 a vyberte Pokračovat.
Zadejte název účtu úložiště, který jste vytvořili.
Vyberte Vytvořit.
Po několika sekundách byste měli vidět, že privátní propojení vytvořené vyžaduje schválení.
Vyberte privátní koncový bod, který jste vytvořili. Zobrazí se hypertextový odkaz, který vás povede ke schválení privátního koncového bodu na úrovni účtu úložiště.

Schválení privátního propojení v účtu úložiště

V účtu úložiště přejděte do připojení privátního koncového bodu v části Nastavení.
Zaškrtněte políčko u privátního koncového bodu, který jste vytvořili, a vyberte Schválit.
Přidejte popis a vyberte ano.
Vraťte se do části Spravované privátní koncové body na kartě Správa ve službě Data Factory.
Přibližně za minutu by se mělo zobrazit schválení vašeho privátního koncového bodu.

Přidání transformace filtru

Vedle zdrojového uzlu na plátně toku dat vyberte ikonu plus a přidejte novou transformaci. První přidanou transformací je filtr.
Pojmenujte transformační filtr FilterYears. Výběrem pole výrazu vedle možnosti Filtrovat otevřete tvůrce výrazů. Tady zadáte podmínku filtrování.
Tvůrce výrazů toku dat umožňuje interaktivně vytvářet výrazy pro použití v různých transformacích. Výrazy můžou zahrnovat předdefinované funkce, sloupce ze vstupního schématu a uživatelem definované parametry. Další informace o vytváření výrazů najdete v tématu Tvůrce výrazů toku dat.
- V tomto kurzu chcete filtrovat filmy v žánru comedy, které vyšly mezi roky 1910 a 2000. Vzhledem k tomu, že rok je aktuálně řetězec, musíte ho pomocí funkce převést na celé číslo toInteger() . K porovnání s hodnotami literálového roku 1910 a 2000 použijte operátory větší než nebo rovno>< (=) a menší než (=). Sjednocujte tyto výrazy společně s operátorem a (&). Výraz vychází takto:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000
- Pokud chcete zjistit, které filmy jsou komiky, můžete pomocí rlike() funkce najít vzor "Comedy" ve sloupcových žánrech. Sjednocujte rlike výraz s porovnáním roku, abyste získali:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
- Pokud máte aktivní ladicí cluster, můžete ověřit logiku výběrem možnosti Aktualizovat a zobrazit výstup výrazu ve srovnání se vstupy použitými. Existuje více než jedna správná odpověď na to, jak tuto logiku dosáhnout pomocí jazyka výrazů toku dat.
- Po dokončení výrazu vyberte Uložit a dokončit .
Načtením náhledu dat ověřte, že filtr funguje správně.

Přidání agregační transformace

Další přidanou transformací je agregační transformace v modifikátoru schématu.
Pojmenujte agregační transformaci AggregateComedyRating. Na kartě Seskupit podle vyberte rok z rozevíracího seznamu a seskupte agregace podle roku, ve které film přišel.
Přejděte na kartu Agregace . V levém textovém poli pojmenujte agregovaný sloupec AverageComedyRating. Výběrem pravého pole výrazu zadejte agregační výraz prostřednictvím tvůrce výrazů.
Pokud chcete získat průměr sloupce Hodnocení, použijte avg() agregační funkci. Protože Rating je řetězec a avg() přebírá číselný vstup, musíme hodnotu převést na číslo prostřednictvím toInteger() funkce. Tento výraz vypadá takto:

avg(toInteger(Rating))
Po dokončení vyberte Uložit a dokončit .
Přejděte na kartu Náhled dat a zobrazte výstup transformace. Všimněte si, že existují jenom dva sloupce, rok a AverageComedyRating.

Přidání transformace jímky

Dále chcete v části Cíl přidat transformaci jímky.
Pojmenujte jímku. Vyberte Nový a vytvořte datovou sadu jímky.
Na stránce Nová datová sada vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.
Na stránce Vybrat formát vyberte Oddělovač a pak vyberte Pokračovat.
Pojmenujte datovou sadu jímky MoviesSink. Pro propojenou službu zvolte stejnou propojenou službu ADLSGen2 , kterou jste vytvořili pro transformaci zdroje. Zadejte výstupní složku pro zápis dat do. V tomto kurzu zapisujeme do výstupu složky v ukázkových datech kontejneru. Složka nemusí předem existovat a je možné ji dynamicky vytvořit. Zaškrtněte políčko První řádek jako záhlaví a jako schéma importu vyberte Žádné. Vyberte OK.

Teď jste dokončili vytváření toku dat. Jste připraveni ho spustit ve svém kanálu.

Spuštění a monitorování toku dat

Kanál můžete ladit, než ho publikujete. V tomto kroku aktivujete spuštění ladění kanálu toku dat. Náhled dat sice nezapisuje data, ale spuštění ladění zapíše data do cíle jímky.

Přejděte na plátno kanálu. Vyberte Ladit , aby se aktivovalo spuštění ladění.
Ladění kanálu aktivit toku dat používá aktivní ladicí cluster, ale inicializace trvá aspoň minutu. Průběh můžete sledovat pomocí karty Výstup . Po úspěšném spuštění vyberte ikonu brýle pro podrobnosti spuštění.
Na stránce podrobností můžete zobrazit počet řádků a čas strávený jednotlivými kroky transformace.
Výběrem transformace získáte podrobné informace o sloupcích a dělení dat.

Pokud jste postupovali podle tohoto kurzu správně, měli byste do složky jímky napsat 83 řádků a 2 sloupce. Správnost dat můžete ověřit kontrolou úložiště objektů blob.

Shrnutí

V tomto kurzu jste pomocí uživatelského rozhraní služby Data Factory vytvořili kanál, který kopíruje a transformuje data ze zdroje Data Lake Storage Gen2 na jímku Data Lake Storage Gen2 (obojí umožňuje přístup jenom k vybraným sítím) pomocí mapování toku dat ve spravované virtuální síti Data Factory.

Sdílet prostřednictvím