Sdílet prostřednictvím


Spuštění poznámkového bloku Databricks s využitím aktivity poznámkového bloku Databricks ve službě Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu pomocí webu Azure Portal vytvoříte kanál Azure Data Factory, který spustí poznámkový blok Databricks pro cluster úloh Databricks. Kanál do poznámkového bloku Databricks během provádění také předá parametry Azure Data Factory.

V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny

  • Vytvoření kanálu využívajícího aktivitu poznámkového bloku Databricks

  • Aktivace spuštění kanálu

  • Monitorování spuštění kanálu

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Jedenáctiminutové představení a ukázku této funkce najdete v tomto videu:

Požadavky

  • Pracovní prostor Azure Databricks. Vytvořte pracovní prostor Databricks nebo použijte existující. V pracovním prostoru Azure Databricks vytvoříte poznámkový blok Python. Pak poznámkový blok spustíte a pomocí služby Azure Data Factory do něj předáte parametry.

Vytvoření datové továrny

  1. Spusťte webový prohlížeč Microsoft Edge nebo Google Chrome. Uživatelské rozhraní služby Data Factory podporují v současnosti jenom webové prohlížeče Microsoft Edge a Google Chrome.

  2. V nabídce webu Azure Portal vyberte Vytvořit prostředek , vyberte Integrace a pak vyberte Data Factory.

    Snímek obrazovky znázorňující výběr služby Data Factory v podokně Nový

  3. Na stránce Vytvořit datovou továrnu na kartě Základy vyberte své předplatné Azure, ve kterém chcete vytvořit datovou továrnu.

  4. U položky Skupina prostředků proveďte jeden z následujících kroků:

    1. V rozevíracím seznamu vyberte existující skupinu prostředků.

    2. Vyberte Vytvořit nový a zadejte název nové skupiny prostředků.

    Informace o skupinách prostředků najdete v článku Použití skupin prostředků ke správě prostředků Azure.

  5. V části Oblast vyberte umístění datové továrny.

    Seznam obsahuje jenom umístění podporovaná službou Data Factory, do kterých se budou ukládat vaše metadata Azure Data Factory. Přidružená úložiště dat (například Azure Storage a Azure SQL Database) a výpočty (jako Azure HDInsight), které služba Data Factory používá, se můžou spouštět v jiných oblastech.

  6. Jako název zadejte ADFTutorialDataFactory.

    Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí následující chyba, změňte název datové továrny (například použijte <název>ADFTutorialDataFactory). Pravidla pojmenování artefaktů služby Data Factory najdete v článku Data Factory – pravidla pojmenování.

    Snímek obrazovky s chybou, pokud není název k dispozici

  7. Jako Verzi vyberte V2.

  8. Vyberte Další: Konfigurace Gitu a pak zaškrtněte políčko Konfigurovat Git později .

  9. Vyberte Zkontrolovat a vytvořit a po úspěšném ověření vyberte Vytvořit .

  10. Po vytvoření vyberte Přejít k prostředku a přejděte na stránku Data Factory . Výběrem dlaždice Otevřít Azure Data Factory Studio spusťte aplikaci uživatelského rozhraní (UI) služby Azure Data Factory na samostatné kartě prohlížeče.

    Snímek obrazovky znázorňující domovskou stránku služby Azure Data Factory s dlaždicí Open Azure Data Factory Studio

Vytvoření propojených služeb

V této části vytvoříte propojenou službu Databricks. Tato propojená služba obsahuje informace o připojení ke clusteru Databricks:

Vytvoření propojené služby Azure Databricks

  1. Na domovské stránce přepněte na kartu Spravovat na levém panelu.

    Snímek obrazovky s kartou Spravovat

  2. V části Připojení vyberte Propojené služby a pak vyberte + Nový.

    Snímek obrazovky znázorňující, jak vytvořit nové připojení

  3. V okně Nová propojená služba vyberte Compute>Azure Databricks a pak vyberte Pokračovat.

    Snímek obrazovky znázorňující, jak zadat propojenou službu Databricks

  4. V okně Nová propojená služba proveďte následující kroky:

    1. Jako název zadejte AzureDatabricks_LinkedService.

    2. Vyberte příslušný pracovní prostor Databricks, ve které budete poznámkový blok spouštět.

    3. Pro výběr clusteru vyberte Nový cluster úloh.

    4. V případě adresy URL pracovního prostoru Databrick by měly být informace automaticky vyplněné.

    5. Pokud jako typ ověřování vyberete Přístupový token, vygenerujte ho z pracoviště Azure Databricks. Postup najdete tady. Pro identitu spravované služby a spravovanou identitu přiřazenou uživatelem udělte roli Přispěvatel oběma identitám v nabídce řízení přístupu k prostředku Azure Databricks.

    6. Pro verzi clusteru vyberte verzi, kterou chcete použít.

    7. Jako typ uzlu clusteru vyberte Standard_D3_v2 v kategorii Pro obecné účely (HDD) pro účely tohoto kurzu.

    8. V části Pracovní procesy zadejte hodnotu 2.

    9. Vyberte Vytvořit.

      Snímek obrazovky znázorňující konfiguraci nové propojené služby Azure Databricks

Vytvořit kanál

  1. Vyberte tlačítko + (plus) a potom v nabídce vyberte Kanál.

    Snímek obrazovky s tlačítky pro vytvoření nového kanálu

  2. Vytvořte parametr, který se použije v kanálu. Později tento parametr předáte do aktivity poznámkového bloku Databricks. V prázdném kanálu vyberte kartu Parametry a pak vyberte + Nový a pojmenujte ho jako "název".

    Snímek obrazovky znázorňující, jak vytvořit nový parametr

    Snímek obrazovky znázorňující, jak vytvořit parametr name

  3. Na panelu nástrojů Aktivity rozbalte Databricks. Přetáhněte aktivitu Poznámkový blok z panelu nástrojů Aktivity na plochu návrháře kanálu.

    Snímek obrazovky znázorňující, jak přetáhnout poznámkový blok na plochu návrháře

  4. Ve vlastnostech okna aktivity poznámkového bloku Databricks v dolní části proveďte následující kroky:

    1. Přepněte na kartu Azure Databricks.

    2. Vyberte AzureDatabricks_LinkedService (kterou jste vytvořili v předchozím postupu).

    3. Přepněte na kartu Nastavení.

    4. Přejděte na cestu k poznámkovému bloku Databricks. Teď vytvoříme poznámkový blok a zadáme cestu. Cestu k poznámkovému bloku získáte pomocí následujících několika kroků.

      1. Spusťte pracovní prostor Azure Databricks.

      2. Vytvořte v pracovním prostoru novou složku a pojmenujte ji adftutorial.

        Snímek obrazovky znázorňující, jak vytvořit novou složku

      3. Snímek obrazovky znázorňující, jak vytvořit nový poznámkový blok (Python), pojmenujme ho mynotebook v části adftutorial Folder ( Vytvořit).

        Snímek obrazovky znázorňující, jak vytvořit nový poznámkový blok

        Snímek obrazovky znázorňující, jak nastavit vlastnosti nového poznámkového bloku

      4. Do nově vytvořeného poznámkového bloku mynotebook přidejte následující kód:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Snímek obrazovky znázorňující, jak vytvořit widgety pro parametry

      5. Cesta k poznámkovému bloku v tomto případě je /adftutorial/mynotebook.

  5. Přepněte zpět do nástroje pro vytváření v uživatelském rozhraní Data Factory. V aktivitě Poznámkový blok1 přejděte na kartu Nastavení.

    a. Přidejte parametr do aktivity poznámkového bloku. Použijte stejný parametr, který jste dříve přidali do kanálu.

    Snímek obrazovky znázorňující, jak přidat parametr

    b. Parametr pojmenujte jako vstup a zadejte hodnotu jako výraz @pipeline().parameters.name.

  6. Pokud chcete kanál ověřit, vyberte tlačítko Ověřit na panelu nástrojů. Okno ověření zavřete tak, že vyberete tlačítko Zavřít .

    Snímek obrazovky znázorňující, jak kanál ověřit

  7. Zvolte Publikovat vše. Uživatelské rozhraní služby Data Factory publikuje entity (propojené služby a kanál) do služby Azure Data Factory.

    Snímek obrazovky znázorňující, jak publikovat nové entity datové továrny

Aktivace spuštění kanálu

Na panelu nástrojů vyberte Přidat aktivační událost a pak vyberte Aktivovat.

Snímek obrazovky znázorňující, jak vybrat příkaz Aktivovat

Dialogové okno Spuštění kanálu požádá o parametr name . Jako parametr zde použijte /path/filename. Vyberte OK.

Snímek obrazovky znázorňující, jak zadat hodnotu parametrů názvu

Monitorování spuštění kanálu

  1. Přepněte na kartu Monitorování . Potvrďte, že se zobrazuje spuštění kanálu. Vytvoření clusteru úloh Databricks, ve kterém se poznámkový blok spustí, trvá přibližně 5 až 8 minut.

    Snímek obrazovky znázorňující, jak monitorovat kanál

  2. Pravidelně klikejte na Aktualizovat a kontrolujte stav spuštění kanálu.

  3. Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte ve sloupci Název kanálu odkaz kanál1.

  4. Na stránce Spuštění aktivity vyberte výstup ve sloupci Název aktivity, abyste zobrazili výstup jednotlivých aktivit, a odkaz na protokoly Databricks najdete v podokně Výstup, kde najdete podrobnější protokoly Sparku.

  5. Zpět do zobrazení spuštění kanálu můžete přepnout výběrem odkazu Všechna spuštění kanálu v nabídce s popisem cesty v horní části.

Ověření výstupu

Můžete se přihlásit k pracovnímu prostoru Azure Databricks a přejít do části Clustery, kde se jako stav úlohy zobrazí Čeká na provedení, Spuštěno nebo Ukončeno.

Snímek obrazovky znázorňující, jak zobrazit cluster úloh a úlohu

Kliknutím na název úlohy můžete přejít k dalším podrobnostem. Po úspěšném spuštění můžete ověřit předané parametry a výstup poznámkového bloku Python.

Snímek obrazovky znázorňující, jak zobrazit podrobnosti a výstup spuštění

Kanál v této ukázce aktivuje aktivitu poznámkového bloku Databricks a předává do ní parametr. Naučili jste se:

  • Vytvoření datové továrny

  • Vytvoření kanálu využívajícího aktivitu poznámkového bloku Databricks

  • Aktivace spuštění kanálu

  • Monitorování spuštění kanálu