Databricks-taken configureren en bewerken
Dit artikel is gericht op instructies voor het maken, configureren en bewerken van taken met behulp van de gebruikersinterface van de werkruimte Werkstromen . Azure Databricks heeft andere toegangspunten en hulpprogramma's voor configuratie, waaronder de volgende:
- Zie Wat is de Databricks CLI?voor meer informatie over het gebruik van de Databricks CLI om taken te maken en uit te voeren.
- Zie Taken in de REST API-verwijzing voor meer informatie over het gebruik van de Taken-API om taken te maken en uit te voeren.
- Zie Geplande notebooktaken maken en beheren voor meer informatie over het rechtstreeks uitvoeren en plannen van taken in een Databricks-notebook.
Tip
Als u een taak als YAML wilt weergeven, klikt u links van Run now voor de taak op het menu Voor de taak en klikt u vervolgens op Overschakelen naar codeversie (YAML).
Een nieuwe taak maken
In deze sectie wordt de minimale configuratie beschreven die nodig is om een nieuwe taak te maken voor het plannen van een notebooktaak met de gebruikersinterface van de werkruimte.
Taken bevatten een of meer taken. U maakt een nieuwe taak door de eerste taak voor die taak te configureren.
Notitie
Elk taaktype heeft dynamische configuratieopties in de gebruikersinterface van de werkruimte. Zie Databricks-taken configureren en bewerken.
- Klik op Werkstromen in de zijbalk en klik op .
- Voer een taaknaam in.
- Selecteer een notitieblok voor het veld Pad .
- Klik op Taak maken.
Als uw werkruimte niet is ingeschakeld voor serverloze berekeningen voor taken, moet u een compute-optie selecteren. Databricks raadt aan om taken altijd te gebruiken bij het configureren van taken.
Er wordt een nieuwe taak weergegeven in de lijst met werkruimtetaken met de standaardnaam New Job <date> <time>
.
Selecteer een taak die u wilt bewerken in de werkruimte
Ga als volgt te werk om een bestaande taak te bewerken met de gebruikersinterface van de werkruimte:
- Klik op Werkstromen in de zijbalk.
- Klik in de kolom Naam op de taaknaam.
Gebruik de gebruikersinterface voor taken om het volgende te doen:
- Taakinstellingen bewerken
- De naam van een taak wijzigen, klonen of verwijderen
- Nieuwe taken toevoegen aan een bestaande taak
- Taakinstellingen bewerken
Notitie
U kunt ook de JSON-definities weergeven voor gebruik met REST API-ophalen, maken en opnieuw instellen van eindpunten.
Taakinstellingen bewerken
Het zijpaneel bevat de taakgegevens. U kunt de taaktrigger, berekeningsconfiguratie, meldingen, het maximum aantal gelijktijdige uitvoeringen wijzigen, drempelwaarden voor duur configureren en tags toevoegen of wijzigen. U kunt ook taakmachtigingen bewerken als toegangsbeheer voor taken is ingeschakeld.
Parameters toevoegen voor alle taaktaken
Parameters die op taakniveau zijn geconfigureerd, worden doorgegeven aan de taken van de taak die sleutel-waardeparameters accepteren, inclusief Python-wielbestanden die zijn geconfigureerd voor het accepteren van trefwoordargumenten. Zie Taken parameteriseren.
Tags toevoegen aan een taak
Als u labels of sleutelwaardekenmerken aan uw taak wilt toevoegen, kunt u tags toevoegen wanneer u de taak bewerkt. U kunt tags gebruiken om taken in de lijst Taken te filteren. U kunt bijvoorbeeld een department
tag gebruiken om alle taken te filteren die deel uitmaken van een specifieke afdeling.
Notitie
Omdat jobtags niet zijn ontworpen voor het opslaan van gevoelige informatie, zoals persoonlijk identificeerbare informatie of wachtwoorden, raadt Databricks aan om alleen tags te gebruiken voor niet-gevoelige waarden.
Tags worden ook doorgegeven aan taakclusters die zijn gemaakt wanneer een taak wordt uitgevoerd, zodat u tags kunt gebruiken met uw bestaande clusterbewaking.
Klik op + Tag in het zijpaneel Taakdetails om tags toe te voegen of te bewerken. U kunt de tag toevoegen als label of sleutel-waardepaar. Als u een label wilt toevoegen, voert u het label in het sleutelveld in en laat u het veld Waarde leeg.
Een budgetbeleid toevoegen aan een taak
Belangrijk
Deze functie bevindt zich in openbare preview-versie.
Als uw werkruimte budgetbeleid gebruikt om serverloos gebruik toe te passen, kunt u het budgetbeleid van uw taken selecteren met behulp van de instelling Budgetbeleid in het taakdetails zijpaneel. Zie Attribueren van serverloos gebruik met budgetbeleidsregels.
De naam van een taak wijzigen, klonen of verwijderen
Als u de naam van een taak wilt wijzigen, gaat u naar de gebruikersinterface van taken en klikt u op de taaknaam.
U kunt snel een nieuwe taak maken door een bestaande taak te klonen. Als u een taak kloont, wordt een identieke kopie van de taak gemaakt, met uitzondering van de taak-id. Ga als volgt te werk om een taak te klonen:
- Ga naar de gebruikersinterface voor taken voor de taak.
- Klik naast de knop Nu uitvoeren .
- Selecteer Kloontaak in de vervolgkeuzelijst.
- Voer een naam in voor de gekloonde taak.
- Klik op Klonen.
Een taak verwijderen
Als u een taak wilt verwijderen, gaat u naar de taakpagina, klikt u naast de taaknaam en selecteert u Taak verwijderen in de vervolgkeuzelijst.
Git gebruiken met taken
Als uw taak taken bevat die ondersteuning bieden voor het gebruik van een externe Git-provider, bevat de gebruikersinterface voor taken een Git-veld en de optie om Git-instellingen toe te voegen of te bewerken.
U kunt de volgende taaktypen configureren voor het gebruik van een externe Git-opslagplaats:
- Notebooks
- Python-scripts
- SQL-bestanden
- dbt
Alle taken in een taak moeten verwijzen naar dezelfde doorvoering in de externe opslagplaats. U moet slechts een van de volgende opgeven voor een taak die gebruikmaakt van een externe opslagplaats:
-
branch: De naam van de vertakking, bijvoorbeeld
main
. -
tag: de naam van de tag, bijvoorbeeld
release-1.0.0
. -
commit: De hash van een specifieke doorvoer, bijvoorbeeld
e0056d01
.
Wanneer een taakuitvoering begint, maakt Databricks een momentopname van de externe opslagplaats om ervoor te zorgen dat de hele taak wordt uitgevoerd op dezelfde versie van code.
Wanneer u de uitvoeringsgeschiedenis van een taak bekijkt die code uitvoert die is opgeslagen in een externe Git-opslagplaats, bevat het deelvenster Taakuitvoeringsgegevens Git-details, inclusief de doorvoer-SHA die is gekoppeld aan de uitvoering. Zie De uitvoeringsgeschiedenis van de taak weergeven.
Notitie
Taken die zijn geconfigureerd voor het gebruik van een externe Git-opslagplaats, kunnen niet naar werkruimtebestanden schrijven. Deze taken moeten tijdelijke gegevens schrijven naar de vluchtige opslag die is gekoppeld aan het stuurprogrammaknooppunt van de rekenkracht die is geconfigureerd om de taak uit te voeren, en permanente gegevens naar een volume of tabel.
Databricks raadt aan om alleen te verwijzen naar werkruimtepaden in Git-mappen voor snelle iteratie en testen tijdens de ontwikkeling. Wanneer u taken verplaatst naar fasering en productie, raadt Databricks u aan deze taken te configureren om te verwijzen naar een externe Git-opslagplaats. Zie de volgende sectie voor meer informatie over het gebruik van een externe Git-opslagplaats met een Databricks-taak.
Een Git-provider configureren
De gebruikersinterface voor taken heeft een dialoogvenster voor het configureren van een externe Git-opslagplaats. Dit dialoogvenster is toegankelijk via het deelvenster Taakgegevens onder de Git-kop of in een taak die is geconfigureerd voor het gebruik van een Git-provider.
De opties die worden weergegeven voor toegang tot het dialoogvenster variƫren afhankelijk van het taaktype en of er al dan niet een Git-verwijzing is geconfigureerd voor de taak. Knoppen voor het starten van het dialoogvenster zijn Git-instellingen toevoegen, Bewerken of Een Git-verwijzing toevoegen.
Voer in het dialoogvenster Git-informatie (alleen Git gelabeld als toegang via het deelvenster Taakdetails) de volgende gegevens in:
- De URL van de Git-opslagplaats.
- Selecteer uw Git-provider in de vervolgkeuzelijst.
- Voer in het Git-referentieveld de id in voor een vertakking, tag of doorvoer die overeenkomt met de versie van de broncode die u wilt uitvoeren.
- Selecteer vertakking, tag of doorvoer in de vervolgkeuzelijst.
Notitie
In het dialoogvenster wordt u mogelijk gevraagd om het volgende: Git-referenties voor dit account ontbreken. Voeg referenties toe. U moet een externe Git-opslagplaats configureren voordat u deze als referentie gebruikt. Zie Databricks Git-mappen (opslagplaatsen) instellen.
Drempelwaarden configureren voor duur van taakuitvoering of metrische gegevens over streamingachterstand
Belangrijk
Streaming waarneembaarheid voor Databricks-taken bevindt zich in openbare preview-.
U kunt optionele drempelwaarden configureren voor de duur van de taakuitvoering of metrische gegevens over de streamingachterstand. Als u metrische drempels voor duur of streaming wilt configureren, klikt u op duur- en streamingachterstandsdrempels in het deelvenster Taakdetails.
Als u drempelwaarden voor taakduur wilt configureren, inclusief verwachte en maximale voltooiingstijden voor de taak, selecteert u Uitvoeringsduur in de vervolgkeuzelijst Metrische. Voer een duur in het veld Waarschuwing in om de verwachte voltooiingstijd van de taak te configureren. Als de taak deze drempelwaarde overschrijdt, wordt een gebeurtenis geactiveerd. U kunt deze gebeurtenis gebruiken om te waarschuwen wanneer een taak langzaam wordt uitgevoerd. Zie Meldingen configureren wanneer een drempelwaarde wordt overschreden. Als u een maximale voltooiingstijd voor een taak wilt configureren, voert u de maximale duur in het veld Time-out in. Als de taak in deze tijd niet wordt voltooid, stelt Azure Databricks de status in op Timed Out.
Als u een drempelwaarde wilt configureren voor een metriek voor een streamingachterstand, selecteert u de metriek in de vervolgkeuzelijst Metriek en voert u een waarde in voor de drempelwaarde. Zie Metrische gegevens weergeven voor streamingtakenvoor meer informatie over de specifieke metrische gegevens die worden ondersteund door een streamingbron.
Als een gebeurtenis wordt geactiveerd omdat een drempelwaarde wordt overschreden, kunt u de gebeurtenis gebruiken om een melding te verzenden. Zie Meldingen configureren wanneer een drempelwaarde wordt overschreden.
U kunt desgewenst drempelwaarden voor duur opgeven voor taken. Zie Drempelwaarden configureren voor duur van taakuitvoering of metrische gegevens over streamingachterstanden.