Konfigurera och redigera Databricks-jobb
Den här artikeln fokuserar på instruktioner för att skapa, konfigurera och redigera jobb med hjälp av arbetsflödens arbetsytegränssnitt. Azure Databricks har andra startpunkter och verktyg för konfiguration, inklusive följande:
- Mer information om hur du använder Databricks CLI för att skapa och köra jobb finns i Vad är Databricks CLI?.
- Mer information om hur du använder jobb-API:et för att skapa och köra jobb finns i Jobb i REST API-referensen.
- Information om hur du kör och schemalägger jobb direkt i en Databricks-notebook-fil finns i Skapa och hantera schemalagda notebook-jobb.
Dricks
Om du vill visa ett jobb som YAML klickar du på menyn kebab till vänster om Kör nu för jobbet och klickar sedan på Växla till kodversion (YAML).
Skapa ett nytt jobb
I det här avsnittet beskrivs den minsta konfiguration som krävs för att skapa ett nytt jobb för att schemalägga en notebook-uppgift med arbetsytans användargränssnitt.
Jobb innehåller en eller flera uppgifter. Du skapar ett nytt jobb genom att konfigurera den första uppgiften för jobbet.
Kommentar
Varje aktivitetstyp har dynamiska konfigurationsalternativ i arbetsytans användargränssnitt. Se Konfigurera och redigera Databricks-uppgifter.
- Klicka på Arbetsflöden i sidofältet och klicka på .
- Ange ett aktivitetsnamn.
- Välj en anteckningsbok för fältet Sökväg.
- Klicka på Skapa uppgift.
Om arbetsytan inte är aktiverad för serverlös beräkning för jobb måste du välja alternativet Compute. Databricks rekommenderar att du alltid använder jobbberäkning när du konfigurerar uppgifter.
Ett nytt jobb visas i listan över arbetsytejobb med standardnamnet New Job <date> <time>
.
Välj ett jobb att redigera i arbetsområdet
Om du vill redigera ett befintligt jobb med arbetsytans användargränssnitt gör du följande:
- Klicka på Arbetsflöden i sidofältet.
- I kolumnen Namn klickar du på jobbnamnet.
Använd jobbgränssnittet för att göra följande:
- Redigera jobbinställningar
- Byta namn på, klona eller ta bort ett jobb
- Lägga till nya uppgifter i ett befintligt jobb
- Redigera aktivitetsinställningar
Kommentar
Du kan också visa JSON-definitionerna för användning med REST API hämta, skapaoch återställa slutpunkter.
Redigera jobbinställningar
Sidopanelen innehåller jobbinformationen. Du kan ändra jobbutlösaren, beräkningskonfigurationen, meddelanden, det maximala antalet samtidiga körningar, konfigurera tröskelvärden för varaktighet och lägga till eller ändra taggar. Du kan också redigera jobbbehörigheter om jobbåtkomstkontroll är aktiverad.
Lägg till parametrar för alla jobbaktiviteter
Parametrar som konfigurerats på jobbnivå skickas till jobbets uppgifter som accepterar nyckel/värde-parametrar, inklusive Python-hjulfiler som har konfigurerats för att acceptera nyckelordsargument. Se Parameterisera jobb.
Lägga till taggar i ett jobb
Om du vill lägga till etiketter eller nyckel/värde-attribut i jobbet kan du lägga till taggar när du redigerar jobbet. Du kan använda taggar för att filtrera jobb i Jobb-listan . Du kan till exempel använda en department
tagg för att filtrera alla jobb som tillhör en viss avdelning.
Kommentar
Eftersom jobbtaggar inte är utformade för att lagra känslig information, till exempel personligt identifierbar information eller lösenord, rekommenderar Databricks att du endast använder taggar för icke-känsliga värden.
Taggar sprids också till jobbkluster som skapas när ett jobb körs, så att du kan använda taggar med din befintliga klusterövervakning.
Klicka på + Tagga på panelen Jobbinformation för att lägga till eller redigera taggar. Du kan lägga till taggen som en etikett eller nyckel/värde-par. Om du vill lägga till en etikett anger du etiketten i fältet Nyckel och lämnar fältet Värde tomt.
Lägga till en budgetprincip i ett jobb
Viktig
Den här funktionen finns i offentlig förhandsversion.
Om din arbetsyta använder budgetprinciper för att tillskriva serverlös användning kan du välja dina jobbs budgetprincip med hjälp av inställningen budgetprincip i jobbinformation sidopanelen. Se Attribut för serverlös användning med budgetprinciper.
Byta namn på, klona eller ta bort ett jobb
Om du vill byta namn på ett jobb går du till jobbgränssnittet och klickar på jobbnamnet.
Du kan snabbt skapa ett nytt jobb genom att klona ett befintligt jobb. Kloning av ett jobb skapar en identisk kopia av jobbet förutom jobb-ID:t. Gör följande för att klona ett jobb:
- Gå till jobbgränssnittet för jobbet.
- Klicka bredvid knappen Kör nu .
- Välj Klona jobb i den nedrullningsbara menyn.
- Ange ett namn för det klonade jobbet.
- Klicka på Klona.
Ta bort ett jobb
Om du vill ta bort ett jobb går du till jobbsidan, klickar på bredvid jobbnamnet och väljer Ta bort jobb från den nedrullningsbara menyn.
Använda Git med jobb
Om jobbet innehåller uppgifter som stöder användning av en fjärransluten Git-provider innehåller jobbgränssnittet ett Git-fält och alternativet att lägga till eller redigera Git-inställningar.
Du kan konfigurera följande aktivitetstyper för att använda en fjärransluten Git-lagringsplats:
- Notebook-filer
- Python-skript
- SQL-filer
- dbt
Alla aktiviteter i ett jobb måste referera till samma incheckning på fjärrlagringsplatsen. Du måste bara ange något av följande för ett jobb som använder en fjärrlagringsplats:
-
branch: Namnet på grenen, till exempel
main
. -
tag: Taggens namn, till exempel
release-1.0.0
. -
commit: Hashen för en specifik incheckning,
e0056d01
till exempel .
När en jobbkörning börjar tar Databricks en ögonblicksbild av fjärrlagringsplatsen för att säkerställa att hela jobbet körs mot samma kodversion.
När du visar körningshistoriken för en aktivitet som kör kod som lagras på en fjärransluten Git-lagringsplats innehåller panelen Aktivitetskörningsinformation Git-information, inklusive inchecknings-SHA som är associerad med körningen. Se Visa aktivitetskörningshistorik.
Kommentar
Uppgifter som konfigurerats för att använda en fjärransluten Git-lagringsplats kan inte skriva till arbetsytefiler. Dessa uppgifter måste skriva tillfälliga data till tillfällig lagring som är kopplad till drivrutinsnoden för den beräkning som konfigurerats för att köra uppgiften och beständiga data till en volym eller tabell.
Databricks rekommenderar att du refererar till arbetsytesökvägar i Git-mappar endast för snabb iteration och testning under utveckling. När du flyttar jobb till mellanlagring och produktion rekommenderar Databricks att du konfigurerar dessa jobb för att referera till en fjärransluten Git-lagringsplats. Mer information om hur du använder en fjärransluten Git-lagringsplats med ett Databricks-jobb finns i följande avsnitt.
Konfigurera en Git-provider
Jobbgränssnittet har en dialogruta för att konfigurera en fjärransluten Git-lagringsplats. Den här dialogrutan är tillgänglig från panelen Jobbinformation under Git-rubriken eller i en uppgift som har konfigurerats för att använda en Git-provider.
Vilka alternativ som visas för att komma åt dialogrutan varierar beroende på aktivitetstyp och om en git-referens redan har konfigurerats för jobbet. Knappar för att starta dialogrutan inkluderar Lägg till Git-inställningar, Redigera eller Lägg till en git-referens.
I dialogrutan Git Information (bara märkt Git om åtkomst via panelen Jobbinformation) anger du följande information:
- Url:en för Git-lagringsplatsen.
- Välj din Git-provider i listrutan.
- I fältet Git-referens anger du identifieraren för en gren, tagg eller incheckning som motsvarar den version av källkoden som du vill köra.
- Välj gren, taggeller commit från listrutan.
Kommentar
Dialogrutan kan fråga dig följande: Git-autentiseringsuppgifter för det här kontot saknas. Lägg till autentiseringsuppgifter. Du måste konfigurera en fjärransluten Git-lagringsplats innan du använder den som referens. Se Ställ in Databricks mappar för Git (Repos).
Konfigurera tröskelvärden för jobbkörningens varaktighet eller mått för strömning av kvarvarande uppgifter
Viktig
Strömningsobservabilitet för Databricks-jobb finns i offentlig förhandsversion.
Du kan konfigurera valfria tröskelvärden för jobbkörningens varaktighet eller mått för strömmande kvarvarande uppgifter. Om du vill konfigurera tröskelvärden för varaktighet eller strömningsmått klickar du på tröskelvärden för varaktighet och strömning av kvarvarande uppgifter i jobbinformation panelen.
Om du vill konfigurera tröskelvärden för jobbvaraktighet, inklusive förväntade och maximala slutförandetider för jobbet, väljer du Kör varaktighet i listrutan Metric. Ange en varaktighet i fältet Varning för att konfigurera jobbets förväntade slutförandetid. Om jobbet överskrider det här tröskelvärdet utlöses en händelse. Du kan använda den här händelsen för att meddela när ett jobb körs långsamt. Se Konfigurera meddelanden för långsamma jobb. Om du vill konfigurera en maximal slutförandetid för ett jobb anger du den maximala varaktigheten i fältet Tidsgräns . Om jobbet inte slutförs under den här tiden anger Azure Databricks statusen "Tidsgränsen har överskriden tidsgräns".
Om du vill konfigurera ett tröskelvärde för ett strömningsmått för kvarvarande uppgifter väljer du måttet i listrutan Mått och anger ett värde för tröskelvärdet. Mer information om de specifika mått som stöds av en strömningskälla finns i Visa mått för strömningsuppgifter.
Om en händelse utlöses på grund av att ett tröskelvärde överskrids kan du använda händelsen för att skicka ett meddelande. Se Konfigurera meddelanden för långsamma jobb.
Du kan också ange tröskelvärden för varaktighet för aktiviteter. Se Konfigurera tröskelvärden för varaktighet för aktivitetskörning eller mått för strömning av kvarvarande uppgifter.