Sdílet prostřednictvím


Transformace dat spuštěním aktivity Azure Databricks

Aktivita Azure Databricks ve službě Data Factory pro Microsoft Fabric umožňuje orchestrovat následující úlohy Azure Databricks:

  • Poznámkový blok
  • Sklenice
  • Python

Tento článek obsahuje podrobný návod, který popisuje, jak vytvořit aktivitu Azure Databricks pomocí rozhraní služby Data Factory.

Požadavky

Abyste mohli začít, musíte splnit následující požadavky:

Konfigurace aktivity Azure Databricks

Pokud chcete v kanálu použít aktivitu Azure Databricks, proveďte následující kroky:

Konfigurace připojení

  1. Vytvořte v pracovním prostoru nový kanál.

  2. Klikněte na přidat aktivitu kanálu a vyhledejte Azure Databricks.

    Snímek obrazovky s cílovou stránkou kanálů infrastruktury a zvýrazněnou aktivitou Azure Databricks

  3. Alternativně můžete v podokně Aktivity kanálu vyhledat Azure Databricks a vybrat ji, aby se přidala na plátno kanálu.

    Snímek obrazovky s uživatelským rozhraním Prostředků infrastruktury se zvýrazněnou podoknem Aktivity a zvýrazněnou aktivitou Azure Databricks

  4. Pokud ještě není vybraná, vyberte na plátně novou aktivitu Azure Databricks.

    Snímek obrazovky znázorňující kartu Obecné nastavení aktivity Azure Databricks

Informace o konfiguraci karty Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.

Konfigurace clusterů

  1. Vyberte kartu Cluster. Pak můžete zvolit existující nebo vytvořit nové připojení Azure Databricks a pak vybrat nový cluster úloh, existující interaktivní cluster nebo existující fond instancí.

  2. V závislosti na tom, co vyberete pro cluster, vyplňte odpovídající pole podle zobrazených polí.

    • V rámci nového clusteru úloh a existujícího fondu instancí máte také možnost nakonfigurovat počet pracovních procesů a povolit spotové instance.
  3. Můžete také zadat další nastavení clusteru, jako jsou zásady clusteru, konfigurace Sparku, proměnné prostředí Sparku a vlastní značky podle potřeby pro cluster, ke kterému se připojujete. Inicializační skripty Databricks a cílová cesta protokolu clusteru je možné přidat také pod další nastavení clusteru.

    Poznámka:

    Všechny pokročilé vlastnosti clusteru a dynamické výrazy podporované v propojené službě Azure Databricks služby Azure Databricks se teď podporují také v aktivitě Azure Databricks v Microsoft Fabric v části Další konfigurace clusteru v uživatelském rozhraní. Vzhledem k tomu, že tyto vlastnosti jsou nyní zahrnuty v uživatelském rozhraní aktivity; Dají se snadno použít s výrazem (dynamickým obsahem), aniž by bylo nutné použít pokročilou specifikaci JSON v propojené službě Azure Databricks služby Azure Databricks.

    Snímek obrazovky znázorňující kartu Nastavení clusteru aktivity Azure Databricks

  4. Aktivita Azure Databricks teď podporuje také podporu zásad clusteru a katalogu Unity.

    • V rozšířených nastaveních máte možnost zvolit zásady clusteru, abyste mohli určit, které konfigurace clusteru jsou povolené.
    • V rozšířených nastaveních máte také možnost nakonfigurovat režim přístupu ke katalogu Unity pro přidání zabezpečení. Dostupné typy režimu přístupu:
      • Režim přístupu jednoho uživatele Tento režim je určený pro scénáře, ve kterých každý cluster používá jeden uživatel. Zajišťuje, aby přístup k datům v rámci clusteru byl omezen pouze na daného uživatele. Tento režim je užitečný pro úlohy, které vyžadují izolaci a individuální zpracování dat.
      • Režim sdíleného přístupu v tomto režimu má více uživatelů přístup ke stejnému clusteru. Kombinuje zásady správného řízení dat katalogu Unity se staršími seznamy řízení přístupu k tabulce (ACL). Tento režim umožňuje přístup k datům založeným na spolupráci při zachování protokolů zásad správného řízení a zabezpečení. Má ale určitá omezení, například nepodporuje Databricks Runtime ML, úlohy spark-submit a konkrétní rozhraní API Sparku a definované uživatelem.
      • Žádný režim přístupu Tento režim zakáže interakci s katalogem Unity, což znamená, že clustery nemají přístup k datům spravovaným katalogem Unity. Tento režim je užitečný pro úlohy, které nevyžadují funkce zásad správného řízení katalogu Unity.

    Snímek obrazovky znázorňující podporu ID zásad a katalogu Unity na kartě Nastavení clusteru v aktivitě Azure Databricks

Konfigurace nastavení

Výběrem karty Nastavení si můžete vybrat mezi 3 možnostmi, které typ Azure Databricks chcete orchestrovat.

Snímek obrazovky znázorňující kartu Nastavení aktivity Azure Databricks

Orchestrace typu poznámkového bloku v aktivitě Azure Databricks:

  1. Pod kartou Nastavení můžete zvolit přepínač Poznámkový blok a spustit poznámkový blok. Budete muset zadat cestu poznámkového bloku, která se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat poznámkovému bloku, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Snímek obrazovky znázorňující typ poznámkových bloků aktivity Azure Databricks

Orchestrace typu Jar v aktivitě Azure Databricks:

  1. Na kartě Nastavení můžete zvolit přepínač Jar a spustit jar. Budete muset zadat název třídy, který se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat jar, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Snímek obrazovky znázorňující typ Jar aktivity Azure Databricks

Orchestrace typu Python v aktivitě Azure Databricks:

  1. Na kartě Nastavení můžete zvolit přepínač Pythonu a spustit soubor Pythonu. Budete muset zadat cestu v rámci Azure Databricks k souboru Pythonu, který se má spustit, volitelné základní parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Snímek obrazovky znázorňující typ Pythonu aktivity Azure Databricks

Podporované knihovny pro aktivitu Azure Databricks

Ve výše uvedené definici aktivity Databricks můžete zadat tyto typy knihoven: jar, egg, whl, maven, pypi, cran.

Další informace najdete v dokumentaci k Databricks pro typy knihoven.

Předávání parametrů mezi aktivitou Azure Databricks a kanály

Parametry můžete předat poznámkovým blokům pomocí vlastnosti baseParameters v aktivitě Databricks.

V některých případech můžete vyžadovat předání určitých hodnot z poznámkového bloku zpět do služby, které se dají použít pro tok řízení (podmíněné kontroly) ve službě nebo spotřebovávat podřízené aktivity (limit velikosti je 2 MB).

  1. V poznámkovém bloku můžete například volat dbutils.notebook.exit("returnValue") a odpovídající "returnValue" se vrátí do služby.

  2. Výstup ve službě můžete využívat pomocí výrazu, například @{activity('databricks activity name').output.runOutput}.

Snímek obrazovky znázorňující, jak předat základní parametry v aktivitě Azure Databricks

Uložení a spuštění nebo naplánování kanálu

Jakmile nakonfigurujete všechny další aktivity potřebné pro váš kanál, přepněte na kartu Domů v horní části editoru kanálů a výběrem tlačítka Uložit kanál uložte. Vyberte Spustit a spusťte ho přímo nebo naplánujte jeho naplánování. Historii spuštění můžete zobrazit také tady nebo nakonfigurovat další nastavení.

Snímek obrazovky znázorňující, jak kanál uložit a spustit

Monitorování spuštění kanálu