Transformace dat v delta lake pomocí mapování toků dat
PLATÍ PRO: Azure Data Factory
Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.
V tomto kurzu použijete plátno toku dat k vytvoření toků dat, které umožňují analyzovat a transformovat data v Azure Data Lake Storage (ADLS) Gen2 a ukládat je v Delta Lake.
Požadavky
- Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
- Účet služby Azure Storage. Úložiště ADLS používáte jako úložiště dat zdroje a jímky . Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.
Soubor, který transformujeme v tomto kurzu, je MoviesDB.csv, který najdete tady. Pokud chcete soubor načíst z GitHubu, zkopírujte obsah do textového editoru podle vašeho výběru a uložte ho místně jako soubor .csv. Pokud chcete nahrát soubor do účtu úložiště, přečtěte si téma Nahrání objektů blob pomocí webu Azure Portal. Příklady odkazují na kontejner s názvem sample-data.
Vytvoření datové továrny
V tomto kroku vytvoříte datovou továrnu a otevřete UX služby Data Factory, abyste vytvořili kanál v datové továrně.
Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.
V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků.>
Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.
Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.
U položky Skupina prostředků proveďte jeden z následujících kroků:
a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.
b. Vyberte Vytvořit novou a zadejte název skupiny prostředků.
Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.
Jako Verzi vyberte V2.
V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.
Vyberte Vytvořit.
Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.
Vyberte Vytvořit a monitorovat. Na samostatné kartě se spustí uživatelské rozhraní služby Data Factory.
Vytvoření kanálu s aktivitou toku dat
V tomto kroku vytvoříte kanál, který obsahuje aktivitu toku dat.
Na domovské stránce vyberte Orchestrate (Orchestrate).
Na kartě Obecné pro kanál zadejte DeltaLake pro název kanálu.
V podokně Aktivity rozbalte accordion Přesunout a transformovat . Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.
V místní nabídce Přidání Tok dat vyberte Vytvořit nový Tok dat a pak pojmenujte tok dat DeltaLake. Po dokončení vyberte Dokončit.
Na horním panelu plátna kanálu posuňte posuvník Tok dat ladění. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Tok dat clusterů trvá 5 až 7 minut, než se zahřejí, a pokud plánují vývoj Tok dat, doporučuje se nejprve zapnout ladění. Další informace naleznete v tématu Režim ladění.
Vytvoření logiky transformace na plátně toku dat
V tomto kurzu vygenerujete dva toky dat. První tok dat je jednoduchý zdroj pro jímku pro vygenerování nového Delta Lake ze souboru CSV s filmy. Nakonec vytvoříte návrh toku, který následuje za účelem aktualizace dat v Delta Lake.
Cíle kurzu
- Použijte zdroj datové sady MoviesCSV z předpokladů a vytvořte z ní nový Delta Lake.
- Vytvořte logiku pro aktualizovaná hodnocení filmů z roku 1988 na 1.
- Odstraňte všechny filmy z roku 1950.
- Vložte nové filmy pro 2021 duplikováním filmů z roku 1960.
Začínáme z prázdného plátna toku dat
Vyberte zdrojovou transformaci v horní části okna editoru toku dat a pak v okně Nastavení zdroje vyberte + Nový vedle vlastnosti Datová sada:
V okně Nová datová sada, které se zobrazí, vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.
Jako typ datové sady zvolte Oddělovač a znovu vyberte Pokračovat .
Pojmenujte datovou sadu MoviesCSV a v části Propojená služba vyberte + Nový a vytvořte novou propojenou službu se souborem.
Zadejte podrobnosti o účtu úložiště vytvořeném dříve v části Požadavky a vyhledejte a vyberte soubor MoviesCSV, který jste tam nahráli.
Po přidání propojené služby zaškrtněte políčko První řádek jako záhlaví a pak vyberte OK a přidejte zdroj.
Přejděte na kartu Projekce v okně nastavení toku dat a pak vyberte Zjistit datové typy.
Teď vyberte + za zdrojem v okně editoru toku dat a posuňte se dolů a vyberte jímku v části Cíl a přidejte do toku dat novou jímku.
Na kartě Jímka pro nastavení jímky, která se zobrazí po přidání jímky, vyberte jako typ jímky vložený řádek a potom delta pro typ vložené datové sady. Pak vyberte službu Azure Data Lake Storage Gen2 pro propojenou službu.
V kontejneru úložiště zvolte název složky, ve které chcete, aby služba vytvořila Delta Lake.
Nakonec přejděte zpět v návrháři kanálu a vyberte Ladit , aby se kanál spustil v režimu ladění s pouze touto aktivitou toku dat na plátně. Tím se vygeneruje vaše nové Delta Lake ve službě Azure Data Lake Storage Gen2.
Teď v nabídce Prostředky továrny na levé straně obrazovky vyberte + , pokud chcete přidat nový prostředek, a pak vyberte Tok dat.
Stejně jako dříve vyberte znovu soubor MoviesCSV jako zdroj a pak na kartě Projekce znovu vyberte Zjistit datové typy.
Tentokrát po vytvoření zdroje vyberte + v okně editoru toku dat a do zdroje přidejte transformaci filtru.
V okně Nastavení filtru přidejte podmínku Filtru, která umožňuje pouze řádky videa odpovídající 1950, 1960 a 1988.
Teď přidejte transformaci odvozeného sloupce , která aktualizuje hodnocení pro každý film z roku 1988 na 1.
Update, insert, delete, and upsert
zásady se vytvářejí v transformaci alter Row. Za odvozený sloupec přidejte změnu transformace řádku.Zásady změn řádků by měly vypadat takto.
Teď, když nastavíte správné zásady pro každý typ alter řádku, zkontrolujte, jestli byla v transformaci jímky nastavená správná pravidla aktualizace.
Tady používáme jímku Delta Lake k datovému jezeru Azure Data Lake Storage Gen2 a umožňujeme vkládání, aktualizace a odstraňování.
Všimněte si, že klíčové sloupce jsou složený klíč tvořený sloupcem primárního klíče Movie a sloupcem roku. Je to proto, že jsme vytvořili falešné filmy 2021 duplikováním 1960 řádků. Tím se zabrání kolizím při vyhledávání existujících řádků poskytnutím jedinečnosti.
Stažení dokončené ukázky
Tady je ukázkové řešení pro kanál Delta s tokem dat pro aktualizace nebo odstranění řádků v jezeře.
Související obsah
Přečtěte si další informace o jazyce výrazů toku dat.