Konfigurieren und Bearbeiten von Databricks-Aufträgen
Dieser Artikel befasst sich mit Anweisungen zum Erstellen, Konfigurieren und Bearbeiten von Aufträgen mithilfe der Benutzeroberfläche des Workflows-Arbeitsbereichs. Azure Databricks verfügt über weitere Einstiegspunkte und Tools für die Konfiguration, einschließlich der folgenden:
- Informationen zur Verwendung der Databricks CLI zum Erstellen und Ausführen von Aufträgen finden Sie unter Was ist die Databricks-CLI?.
- Informationen zur Verwendung der Auftrags-API zum Erstellen und Ausführen von Aufträgen finden Sie im Abschnitt zu Aufträgen in der REST-API-Referenz.
- Informationen zum Ausführen und Planen von Aufträgen direkt in einem Databricks-Notebook finden Sie unter Erstellen und Verwalten geplanter Notebookaufträge.
Tipp
Um einen Job als YAML anzuzeigen, klicken Sie auf das Drei–Punkte-Menü links neben Jetzt ausführen für den Auftrag und dann auf Zur Code-Version (YAML) wechseln.
Neues Projekt erstellen
In diesem Abschnitt wird die Mindestkonfiguration beschrieben, die erforderlich ist, um einen neuen Auftrag zur Planung einer Notebook-Aufgabe mit der Arbeitsbereich-Benutzeroberfläche zu erstellen.
Aufträge enthalten mindestens eine Aufgabe. Sie erstellen einen neuen Auftrag, indem Sie die erste Aufgabe für diesen Auftrag konfigurieren.
Hinweis
Jeder Aufgabentyp verfügt über dynamische Konfigurationsoptionen in der Benutzeroberfläche des Arbeitsbereichs. Siehe Konfigurieren und Bearbeiten von Databricks-Aufgaben.
- Klicken Sie auf der Seitenleiste auf Workflows und dann auf .
- Geben Sie einen Auftragsnamen ein.
- Wählen Sie ein Notebook für das Feld Pfad aus.
- Klicken Sie auf Aufgabe erstellen.
Wenn Ihr Arbeitsbereich nicht für serverloses Computing für Aufträge aktiviert ist, müssen Sie eine Compute-Option auswählen. Databricks empfiehlt, bei der Konfiguration von Tasks immer Jobs Compute zu verwenden.
Ein neuer Auftrag erscheint in der Auftragsliste des Arbeitsbereichs mit dem Standardnamen New Job <date> <time>
.
Wählen Sie einen Auftrag aus, der im Arbeitsbereich bearbeitet werden soll.
Gehen Sie wie folgt vor, um einen vorhandenen Auftrag mit der Arbeitsbereich-Benutzeroberfläche zu bearbeiten:
- Klicken Sie in der Randleiste auf Workflows.
- Klicken Sie in der Spalte Name auf den Auftragsnamen.
Verwenden Sie die Benutzeroberfläche für Aufträge, um Folgendes zu tun:
- Auftragseinstellungen bearbeiten
- Umbenennen, Klonen oder Löschen eines Auftrags
- Hinzufügen neuer Aufgaben zu einem vorhandenen Auftrag
- Bearbeiten von Aufgabeneinstellungen
Hinweis
Sie können auch die JSON-Definitionen für die Verwendung mit den REST-API-Endpunkten Abrufen, Erstellen und Zurücksetzen anzeigen.
Auftragseinstellungen bearbeiten
Im Seitenbereich sind die Auftragsdetails aufgeführt. Sie können den Job-Trigger, die Computekonfiguration, Benachrichtigungen und die maximale Anzahl gleichzeitiger Ausführungen ändern, Schwellenwerte für die Dauer konfigurieren und Tags hinzufügen oder ändern. Sie können außerdem Auftragsberechtigungen bearbeiten, wenn die Zugriffssteuerung für Aufträge aktiviert ist.
Hinzufügen von Parametern für alle Auftragsaufgaben
Auf Auftragsebene konfigurierte Parameter werden an eine der Aufgaben des Auftrags übergeben, die Schlüsselwertparameter akzeptiert, einschließlich Python-Wheel-Dateien, die für die Annahme von Schlüsselwortargumenten konfiguriert sind. Siehe Aufträge parametrisieren.
Hinzufügen von Tags zu einem Auftrag
Um Ihrem Auftrag Bezeichnungen oder Schlüssel-Wert-Attribute hinzuzufügen, können Sie beim Bearbeiten des Auftrags Tags hinzufügen. Sie können Aufträge in der Auftragsliste mit Hilfe von Tags filtern. Sie können zum Beispiel ein department
-Tag verwenden, um alle Aufträge zu filtern, die zu einer bestimmten Abteilung gehören.
Hinweis
Da Auftragstags nicht für das Speichern vertraulicher Informationen wie personenbezogener Informationen oder Kennwörter konzipiert sind, empfiehlt Databricks die Verwendung von Tags nur für nicht vertrauliche Werte.
Tags werden auch an Auftragscluster übermittelt, die beim Ausführen eines Auftrags erstellt werden, sodass Sie die Tags auch für Ihre vorhandene Clusterüberwachung verwenden können.
Klicken Sie im Seitenbereich Auftragsdetails auf + Tag, um Tags hinzuzufügen oder zu bearbeiten. Sie können das Tag als Bezeichnung oder als Schlüssel-Wert-Paar hinzufügen. Um eine Bezeichnung hinzuzufügen, geben Sie diese im Feld Schlüssel ein und lassen das Feld Wert leer.
Umbenennen, Klonen oder Löschen eines Auftrags
Um einen Auftrag umzubenennen, gehen Sie zur Benutzeroberfläche des Auftrags und klicken Sie auf den Auftragsnamen.
Sie können schnell einen neuen Auftrag erstellen, indem Sie einen vorhandenen Auftrag klonen. Beim Klonen eines Auftrags wird, abgesehen von der Auftrags-ID, eine identische Kopie des Auftrags erstellt. Gehen Sie wie folgt vor, um einen Auftrag zu klonen:
- Wechseln Sie zur Benutzeroberfläche des Auftrags.
- Klicken Sie neben der Schaltfläche Jetzt ausführen auf .
- Wählen Sie aus dem Dropdown-Menü die Option Auftrag klonen aus.
- Geben Sie einen Namen für den geklonten Auftrag ein.
- Klicke auf Klonen.
Löschen eines Auftrags
Um einen Auftrag auf der Seite des Auftrags zu löschen, klicken Sie neben dem Auftragsnamen auf , und wählen Sie im Dropdown-Menü die Option Auftrag löschen aus.
Verwenden von Git mit Aufträgen
Wenn Ihr Auftrag Aufgaben enthält, die die Verwendung eines Git-Remote-Providers unterstützen, enthält die Auftrags-Benutzeroberfläche ein Git-Feld und die Möglichkeit, Git-Einstellungen hinzuzufügen oder zu bearbeiten.
Sie können die folgenden Aufgabentypen für die Verwendung eines Git-Remoterepository konfigurieren:
- Notebooks
- Python-Skripts
- SQL-Dateien
- dbt
Alle Aufgaben in einem Auftrag müssen auf dieselbe Übertragung im Remoterepository verweisen. Sie müssen für einen Auftrag, der eine Remoterepository verwendet, nur eine der folgenden Angaben machen:
- Branch: der Name der Verzweigung, z. B.
main
. - Tag: der Name des Tags, z. B.
release-1.0.0
. - Committ: der Hash eines bestimmten Commits z. B.
e0056d01
.
Zu Beginn eines Auftragslaufs nimmt Databricks einen Snapshot-Commit des Remotedepository vor, um sicherzustellen, dass der gesamte Auftrag mit der gleichen Codeversion ausgeführt wird.
Wenn Sie den Ausführungsverlauf einer Aufgabe anzeigen, die in einem Git-Remoterepository gespeicherten Code ausführt, enthält der Bereich Taskausführungsdetails Git-Details – einschließlich der Commit-SHA, die der Ausführung zugeordnet ist. Weitere Informationen finden Sie unter Anzeigen des Ausführungsverlaufs von Aufgaben.
Hinweis
Aufgaben, die für die Verwendung eines Git-Remoterepository konfiguriert sind, können nicht in Arbeitsbereichsdateien geschrieben werden. Sie müssen temporäre Daten in den ephemeren Treiberspeicher und persistente Daten in einen Datenträger oder eine Tabelle schreiben.
Databricks empfiehlt das Erstellen von Aufträgen, die auf Arbeitsbereichspfade in Git-Ordnern verweisen, nur für schnelle Iterationen und Tests während der Entwicklung. Databricks empfiehlt, Aufträge neu zu konfigurieren, um auf ein Git-Remoterepository zu verweisen, während Sie in Staging und Produktion wechseln. Erfahren Sie mehr über versionskontrollierten Quellcode in einem Azure Databricks-Auftrag.
Konfigurieren eines Git-Anbieters
Die Benutzeroberfläche für Jobs enthält einen Dialog zur Konfiguration eines Git-Remoterepository. Dieses Dialogfeld ist über den Bereich Job-Detail unter der Überschrift Git zugänglich oder in jeder Aufgabe, die für die Verwendung eines Git-Anbieters konfiguriert ist.
Die Optionen, die für den Zugriff auf das Dialogfeld angezeigt werden, hängen vom Aufgabentyp ab und davon, ob für den Auftrag bereits eine Git-Referenz konfiguriert wurde oder nicht. Die Schaltflächen zum Starten des Dialogfelds umfassen Git-Einstellungen hinzufügen, Bearbeiten oder Git-Referenz hinzufügen.
Geben Sie im Dialogfeld Git-Informationen (das nur mit Git bezeichnet wird, wenn der Zugriff über das Fenster Auftragsdetails erfolgt) die folgenden Angaben ein:
- Die Git-Repository-URL.
- Wählen Sie in der Dropdownliste Ihren Git-Anbieter aus.
- Geben Sie in das Feld Git-Referenz die Kennung einer Verzweigung, eines Tags oder einer Übertragung ein, die der Version des Quellcodes entspricht, die Sie ausführen möchten.
- Wählen Sie in der Dropdownliste Branch, Commit oder Tag aus.
Hinweis
Das Dialogfeld fordert Sie möglicherweise mit folgendem Hinweis auf: Git-Anmeldeinformationen für dieses Konto fehlen. Anmeldeinformationen hinzufügen. Sie müssen ein Git-Remoterepository konfigurieren, bevor Sie es als Referenz verwenden. Siehe Einrichten von Git-Ordnern für Databricks (Repos).
Konfigurieren einer erwarteten Abschlusszeit oder eines Timeouts für einen Auftrag
Sie können optionale Schwellenwerte für die Dauer für einen Auftrag konfigurieren, einschließlich einer erwarteten und einer maximalen Fertigstellungszeit. Um die Schwellenwerte für die Dauer zu konfigurieren, klicken Sie auf Schwellenwerte für die Dauer festlegen unter Schwellenwerte für die Dauer im Fenster Auftragsdetails.
Geben Sie zum Konfigurieren der voraussichtlichen Fertigstellungszeit des Auftrags die Dauer in das Feld Warnung ein. Wenn der Auftrag diesen Schwellenwert überschreitet, wird ein Ereignis ausgelöst. Sie können dieses Ereignis verwenden, um benachrichtigt zu werden, wenn ein Auftrag langsam ausgeführt wird. Weitere Informationen finden Sie unter Konfigurieren von Benachrichtigungen für langsam oder verspätet ausgeführte Aufträge.
Um eine maximale Abschlusszeit für einen Auftrag zu konfigurieren, geben Sie die maximale Dauer in das Feld Timeout ein. Wenn der Auftrag nicht innerhalb dieses Zeitraums abgeschlossen wird, legt Azure Databricks den Auftragsstatus auf „Zeitüberschreitung“ fest.
Sie können optional Schwellenwerte für die Dauer für Vorgänge angeben. Weitere Informationen finden Sie unter Konfigurieren einer erwarteten Abschlusszeit oder eines Timeouts für eine Aufgabe.