Transformace dat spuštěním aktivity Azure Databricks
Aktivita Azure Databricks ve službě Data Factory pro Microsoft Fabric umožňuje orchestrovat následující úlohy Azure Databricks:
- Poznámkový blok
- Sklenice
- Python
Tento článek obsahuje podrobný návod, který popisuje, jak vytvořit aktivitu Azure Databricks pomocí rozhraní služby Data Factory.
Požadavky
Abyste mohli začít, musíte splnit následující požadavky:
- Účet tenanta s aktivním předplatným. Vytvoření účtu zdarma
- Vytvoří se pracovní prostor.
Konfigurace aktivity Azure Databricks
Pokud chcete v kanálu použít aktivitu Azure Databricks, proveďte následující kroky:
Konfigurace připojení
Vytvořte v pracovním prostoru nový kanál.
Klikněte na přidat aktivitu kanálu a vyhledejte Azure Databricks.
Alternativně můžete v podokně Aktivity kanálu vyhledat Azure Databricks a vybrat ji, aby se přidala na plátno kanálu.
Pokud ještě není vybraná, vyberte na plátně novou aktivitu Azure Databricks.
Informace o konfiguraci karty Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.
Konfigurace clusterů
Vyberte kartu Cluster. Pak můžete zvolit existující nebo vytvořit nové připojení Azure Databricks a pak vybrat nový cluster úloh, existující interaktivní cluster nebo existující fond instancí.
V závislosti na tom, co vyberete pro cluster, vyplňte odpovídající pole podle zobrazených polí.
- V rámci nového clusteru úloh a existujícího fondu instancí máte také možnost nakonfigurovat počet pracovních procesů a povolit spotové instance.
Můžete také zadat další nastavení clusteru, jako jsou zásady clusteru, konfigurace Sparku, proměnné prostředí Sparku a vlastní značky podle potřeby pro cluster, ke kterému se připojujete. Inicializační skripty Databricks a cílová cesta protokolu clusteru je možné přidat také pod další nastavení clusteru.
Poznámka:
Všechny pokročilé vlastnosti clusteru a dynamické výrazy podporované v propojené službě Azure Databricks služby Azure Databricks se teď podporují také v aktivitě Azure Databricks v Microsoft Fabric v části Další konfigurace clusteru v uživatelském rozhraní. Vzhledem k tomu, že tyto vlastnosti jsou nyní zahrnuty v uživatelském rozhraní aktivity; Dají se snadno použít s výrazem (dynamickým obsahem), aniž by bylo nutné použít pokročilou specifikaci JSON v propojené službě Azure Databricks služby Azure Databricks.
Aktivita Azure Databricks teď podporuje také podporu zásad clusteru a katalogu Unity.
- V rozšířených nastaveních máte možnost zvolit zásady clusteru, abyste mohli určit, které konfigurace clusteru jsou povolené.
- V rozšířených nastaveních máte také možnost nakonfigurovat režim přístupu ke katalogu Unity pro přidání zabezpečení. Dostupné typy režimu přístupu:
- Režim přístupu jednoho uživatele Tento režim je určený pro scénáře, ve kterých každý cluster používá jeden uživatel. Zajišťuje, aby přístup k datům v rámci clusteru byl omezen pouze na daného uživatele. Tento režim je užitečný pro úlohy, které vyžadují izolaci a individuální zpracování dat.
- Režim sdíleného přístupu v tomto režimu má více uživatelů přístup ke stejnému clusteru. Kombinuje zásady správného řízení dat katalogu Unity se staršími seznamy řízení přístupu k tabulce (ACL). Tento režim umožňuje přístup k datům založeným na spolupráci při zachování protokolů zásad správného řízení a zabezpečení. Má ale určitá omezení, například nepodporuje Databricks Runtime ML, úlohy spark-submit a konkrétní rozhraní API Sparku a definované uživatelem.
- Žádný režim přístupu Tento režim zakáže interakci s katalogem Unity, což znamená, že clustery nemají přístup k datům spravovaným katalogem Unity. Tento režim je užitečný pro úlohy, které nevyžadují funkce zásad správného řízení katalogu Unity.
Konfigurace nastavení
Výběrem karty Nastavení si můžete vybrat mezi 3 možnostmi, které typ Azure Databricks chcete orchestrovat.
Orchestrace typu poznámkového bloku v aktivitě Azure Databricks:
Pod kartou Nastavení můžete zvolit přepínač Poznámkový blok a spustit poznámkový blok. Budete muset zadat cestu poznámkového bloku, která se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat poznámkovému bloku, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.
Orchestrace typu Jar v aktivitě Azure Databricks:
Na kartě Nastavení můžete zvolit přepínač Jar a spustit jar. Budete muset zadat název třídy, který se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat jar, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.
Orchestrace typu Python v aktivitě Azure Databricks:
Na kartě Nastavení můžete zvolit přepínač Pythonu a spustit soubor Pythonu. Budete muset zadat cestu v rámci Azure Databricks k souboru Pythonu, který se má spustit, volitelné základní parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.
Podporované knihovny pro aktivitu Azure Databricks
Ve výše uvedené definici aktivity Databricks můžete zadat tyto typy knihoven: jar, egg, whl, maven, pypi, cran.
Další informace najdete v dokumentaci k Databricks pro typy knihoven.
Předávání parametrů mezi aktivitou Azure Databricks a kanály
Parametry můžete předat poznámkovým blokům pomocí vlastnosti baseParameters v aktivitě Databricks.
V některých případech můžete vyžadovat předání určitých hodnot z poznámkového bloku zpět do služby, které se dají použít pro tok řízení (podmíněné kontroly) ve službě nebo spotřebovávat podřízené aktivity (limit velikosti je 2 MB).
V poznámkovém bloku můžete například volat dbutils.notebook.exit("returnValue") a odpovídající "returnValue" se vrátí do služby.
Výstup ve službě můžete využívat pomocí výrazu, například
@{activity('databricks activity name').output.runOutput}
.
Uložení a spuštění nebo naplánování kanálu
Jakmile nakonfigurujete všechny další aktivity potřebné pro váš kanál, přepněte na kartu Domů v horní části editoru kanálů a výběrem tlačítka Uložit kanál uložte. Vyberte Spustit a spusťte ho přímo nebo naplánujte jeho naplánování. Historii spuštění můžete zobrazit také tady nebo nakonfigurovat další nastavení.