Sdílet prostřednictvím


Konfigurace a úprava úloh Databricks

Tento článek se zaměřuje na pokyny pro vytváření, konfiguraci a úpravy úloh pomocí uživatelského rozhraní pracovního prostoru Pracovních postupů . Azure Databricks má další vstupní body a nástroje pro konfiguraci, včetně následujících:

  • Další informace o vytváření a spouštění úloh pomocí rozhraní příkazového řádku Databricks najdete v tématu Co je rozhraní příkazového řádku Databricks?
  • Další informace o použití rozhraní API úloh k vytváření a spouštění úloh najdete v tématu Úlohy v referenčních informacích k rozhraní REST API.
  • Informace o tom, jak spouštět a plánovat úlohy přímo v poznámkovém bloku Databricks, najdete v tématu Vytváření a správa naplánovaných úloh poznámkového bloku.

Tip

Pokud chcete zobrazit úlohu jako YAML, klikněte na nabídku Kebab vlevo od příkazu Spustit pro úlohu a potom klikněte na přepnout na verzi kódu (YAML).

Vytvoření nové úlohy

Tato část popisuje minimální konfiguraci potřebnou k vytvoření nové úlohy pro naplánování úlohy poznámkového bloku s uživatelským rozhraním pracovního prostoru.

Úlohy obsahují jeden nebo více úkolů. Novou úlohu vytvoříte konfigurací prvního úkolu pro danou úlohu.

Poznámka:

Každý typ úlohy má v uživatelském rozhraní pracovního prostoru dynamické možnosti konfigurace. Viz Konfigurace a úprava úloh Databricks.

  1. Na bočním panelu klikněte na Ikona Pracovních postupůPracovní postupy a klikněte na .Tlačítko Vytvořit úlohu
  2. Zadejte název úkolu.
  3. Vyberte poznámkový blok pro pole Cesta .
  4. Klikněte na Vytvořit úkol.

Pokud váš pracovní prostor není povolený pro bezserverové výpočetní prostředky pro úlohy, musíte vybrat možnost Compute . Databricks doporučuje při konfiguraci úloh vždy používat výpočetní prostředky úloh.

V seznamu úloh pracovního prostoru se zobrazí nová úloha s výchozím názvem New Job <date> <time>.

Vyberte úlohu, kterou chcete upravit v pracovním prostoru.

Pokud chcete upravit existující úlohu pomocí uživatelského rozhraní pracovního prostoru, postupujte takto:

  1. Na bočním panelu klikněte na Ikona Pracovních postupůPracovní postupy.
  2. Ve sloupci Název klikněte na název úlohy.

Pomocí uživatelského rozhraní úloh proveďte následující akce:

  • Úprava nastavení úlohy
  • Přejmenování, klonování nebo odstranění úlohy
  • Přidání nových úkolů do existující úlohy
  • Upravit nastavení úkolu

Poznámka:

Můžete si také prohlédnout definice JSON pro použití s rozhraním REST API get, create a resetovat koncové body.

Úprava nastavení úlohy

Boční panel obsahuje podrobnosti o úloze. Můžete změnit aktivační událost úlohy, konfiguraci výpočetních prostředků, oznámení, maximální počet souběžných spuštění, nakonfigurovat prahové hodnoty doby trvání a přidat nebo změnit značky. Pokud je povolené řízení přístupu k úlohám, můžete také upravit oprávnění úlohy.

Přidání parametrů pro všechny úkoly úlohy

Parametry nakonfigurované na úrovni úlohy se předávají úkolům úlohy, které přijímají parametry klíč-hodnota, včetně souborů kol Pythonu nakonfigurovaných tak, aby přijímaly argumenty klíčových slov. Viz Parametrizovat úlohy.

Přidání značek do úlohy

Pokud chcete do úlohy přidat popisky nebo atributy klíč-hodnota, můžete při úpravě úlohy přidat značky . Značky můžete použít k filtrování úloh v seznamu Úloh. Pomocí značky department můžete například filtrovat všechny úlohy, které patří do konkrétního oddělení.

Poznámka:

Vzhledem k tomu, že značky úloh nejsou navržené tak, aby ukládaly citlivé informace, jako jsou identifikovatelné osobní údaje nebo hesla, doporučuje Databricks používat značky pouze pro necitlivých hodnot.

Značky se také šíří do clusterů úloh vytvořených při spuštění úlohy, což umožňuje používat značky se stávajícím monitorováním clusteru.

Pokud chcete přidat nebo upravit značky, klikněte na bočním panelu Podrobnosti úlohy na tlačítko + Značka. Značku můžete přidat jako popisek nebo pár klíč-hodnota. Pokud chcete přidat popisek, zadejte ho do pole Klíč a pole Hodnota nechte prázdné.

Přidejte rozpočtovou zásadu k úloze

Důležitý

Tato funkce je ve verzi Public Preview.

Pokud váš pracovní prostor používá zásady rozpočtu pro přiřazení bezserverového využití, můžete zásady rozpočtu úloh vybrat pomocí nastavení Zásady rozpočtu na bočním panelu Podrobnosti úlohy. Viz bezserverové využití s rozpočtovými zásadami.

Přejmenování, klonování nebo odstranění úlohy

Pokud chcete úlohu přejmenovat, přejděte do uživatelského rozhraní úloh a klikněte na název úlohy.

Novou úlohu můžete rychle vytvořit klonováním existující úlohy. Klonování úlohy vytvoří identickou kopii úlohy s výjimkou ID úlohy. Pokud chcete naklonovat úlohu, postupujte takto:

  1. Přejděte do uživatelského rozhraní úloh pro úlohu.
  2. Klikněte vedle Nabídka Kebabtlačítka Spustit.
  3. V rozevírací nabídce vyberte úlohu Clone (Klonovat).
  4. Zadejte název klonované úlohy.
  5. Klikněte na Klonovat.

Odstranění úlohy

Pokud chcete odstranit úlohu, přejděte na stránku úlohy, klikněte na Nabídka Kebab název úlohy a v rozevírací nabídce vyberte Odstranit úlohu .

Použití Gitu s úlohami

Pokud vaše úloha obsahuje jakékoli úlohy, které podporují použití vzdáleného poskytovatele Gitu, uživatelské rozhraní úloh obsahuje pole Git a možnost přidat nebo upravit nastavení Gitu.

Pro použití vzdáleného úložiště Git můžete nakonfigurovat následující typy úloh:

  • Poznámkové bloky
  • Skripty Pythonu
  • Soubory SQL
  • dbt

Všechny úkoly v úloze musí odkazovat na stejné potvrzení ve vzdáleném úložišti. Pro úlohu, která používá vzdálené úložiště, musíte zadat pouze jednu z následujících možností:

  • branch: Název větve, například main.
  • tag: Název značky, release-1.0.0například .
  • commit: Hodnota hash konkrétního potvrzení, například e0056d01.

Když se spustí úloha, Databricks pořídí potvrzení snímku vzdáleného úložiště, aby se zajistilo, že se celá úloha spustí ve stejné verzi kódu.

Když zobrazíte historii spuštění úlohy, která spouští kód uložený ve vzdáleném úložišti Git, obsahuje panel podrobností o spuštění úlohy podrobnosti o Gitu, včetně algoritmu SHA potvrzení přidruženého ke spuštění. Viz Zobrazení historie spuštění úlohy.

Poznámka:

Úlohy nakonfigurované pro použití vzdáleného úložiště Git nemůžou zapisovat do souborů pracovního prostoru. Tyto úlohy musí zapisovat dočasná data do dočasného úložiště připojeného k uzlu ovladače výpočetních prostředků nakonfigurovaného pro spuštění úlohy a trvalých dat do svazku nebo tabulky.

Databricks doporučuje odkazovat na cesty pracovních prostorů ve složkách Git pouze pro rychlou iteraci a testování během vývoje. Při přesunu úloh do přípravného a produkčního prostředí doporučuje Databricks tyto úlohy nakonfigurovat tak, aby odkazovala na vzdálené úložiště Git. Další informace o použití vzdáleného úložiště Git s úlohou Databricks najdete v následující části.

Konfigurace poskytovatele Gitu

Uživatelské rozhraní úloh má dialogové okno pro konfiguraci vzdáleného úložiště Git. Toto dialogové okno je přístupné z panelu Podrobností o úloze pod nadpisem Git nebo v libovolné úloze nakonfigurované pro použití poskytovatele Gitu.

Možnosti zobrazené pro přístup k dialogovému okně se liší v závislosti na typu úlohy a na tom, jestli už byl pro úlohu nakonfigurovaný odkaz gitu. Tlačítka pro spuštění dialogového okna zahrnují přidání nastavení Gitu, úpravy nebo přidání odkazu na Git.

V dialogovém okně Informace o Gitu (jen označený Git, pokud je přístup na panelu podrobností úlohy) zadejte následující podrobnosti:

  • Adresa URL úložiště Git.
  • V rozevíracím seznamu vyberte svého poskytovatele Gitu.
  • Do referenčního pole Gitu zadejte identifikátor větve, značky nebo potvrzení, který odpovídá verzi zdrojového kódu, kterou chcete spustit.
  • V rozevíracím seznamu vyberte větev, značku nebo potvrzení .

Poznámka:

V dialogovém okně se může zobrazit výzva s následujícími údaji: Chybí přihlašovací údaje Gitu pro tento účet. Přidejte přihlašovací údaje. Než ho použijete jako referenci, musíte nakonfigurovat vzdálené úložiště Git. Viz Nastavení složek Gitu (Repos) Databricks.

Konfigurace prahových hodnot pro metriky doby trvání běhu úloh nebo streamovaného backlogu

Důležitý

Pozorovatelnost streamování pro úlohy Databricks je ve verzi Public Preview.

Můžete nakonfigurovat volitelné prahové hodnoty pro metriky doby trvání spuštění úlohy nebo metriky backlogu streamování. Chcete-li nakonfigurovat prahové hodnoty metrik pro dobu trvání nebo streamování, klikněte na Prahové hodnoty doby trvání a streamovacího backlogu v panelu Podrobnosti úlohy.

Pokud chcete nakonfigurovat prahové hodnoty doby trvání úlohy, včetně očekávaných a maximálních dob dokončení úlohy, vyberte dobu trvání spuštění v rozevírací nabídce metrik. Do pole Upozornění zadejte dobu trvání, abyste nakonfigurovali očekávanou dobu dokončení úlohy. Pokud úloha tuto prahovou hodnotu překročí, aktivuje se událost. Tuto událost můžete použít k upozornění na pomalé spuštění úlohy. Viz Konfigurace oznámení při překročení prahové hodnoty. Pokud chcete pro úlohu nakonfigurovat maximální dobu dokončení, zadejte do pole Časový limit maximální dobu trvání. Pokud se úloha tentokrát nedokončí, Azure Databricks nastaví její stav na Časový limit.

Pokud chcete nakonfigurovat prahovou hodnotu pro metriku backlogu streamování, vyberte metriku v rozevírací nabídce Metrika a zadejte hodnotu prahové hodnoty. Další informace o konkrétních metrikách podporovaných zdrojem streamování najdete v tématu Zobrazení metrik pro úlohy streamování.

Pokud se událost aktivuje kvůli překročení prahové hodnoty, můžete ji použít k odeslání oznámení. Viz Konfigurace oznámení při překročení prahové hodnoty.

Volitelně můžete zadat prahové hodnoty doby trvání pro úkoly. Viz Nastavení prahových hodnot pro dobu trvání běhu úlohy nebo metriky zpoždění streamování.