Freigeben über


Konfigurieren und Bearbeiten von Databricks-Aufträgen

Sie können einen Auftrag mithilfe der Auftragsbenutzeroberfläche oder mit Entwicklertools wie der Databricks CLI oder der REST-API erstellen und ausführen. Mithilfe der Benutzeroberfläche oder API können Sie einen fehlgeschlagenen oder abgebrochenen Auftrag reparieren und erneut ausführen. In diesem Artikel wird gezeigt, wie Sie Aufträge mithilfe der Workflows Arbeitsbereich-UI erstellen, konfigurieren und bearbeiten. Weitere Informationen zu anderen Tools finden Sie in den folgenden Themen:

  • Informationen zur Verwendung der Databricks CLI zum Erstellen und Ausführen von Aufträgen finden Sie unter Was ist die Databricks-CLI?.
  • Informationen zur Verwendung der Auftrags-API zum Erstellen und Ausführen von Aufträgen finden Sie im Abschnitt zu Aufträgen in der REST-API-Referenz.
  • Wenn Sie einen Infrastruktur-as-Code -Ansatz (IaC) zum Konfigurieren von Aufträgen bevorzugen, können Sie Databricks Asset Bundles (DABs) verwenden. Informationen zur Verwendung von DABs zum Konfigurieren und Koordinieren Ihrer Aufträge finden Sie unter Databricks-Ressourcenbundles.
  • Informationen zum Ausführen und Planen von Aufträgen direkt in einem Databricks-Notebook finden Sie unter Erstellen und Verwalten geplanter Notebookaufträge.

Tipp

Um einen Job als YAML anzuzeigen, klicken Sie auf das Drei–Punkte-Menü links neben Jetzt ausführen für den Auftrag und dann auf Zur Code-Version (YAML) wechseln.

Welche Mindestkonfiguration ist für einen Auftrag erforderlich?

Für alle Aufträge in Azure Databricks ist Folgendes erforderlich:

  • Eine Aufgabe, die logik enthält, die ausgeführt werden soll, z. B. ein Databricks-Notizbuch. Siehe Konfigurieren und Bearbeiten von Databricks-Aufgaben
  • Eine Computeressource zum Ausführen der Logik. Bei der Computeressource kann es sich um serverloses Computing, klassisches Job Compute oder All-Purpose Compute handeln. Weitere Informationen finden Sie unter Konfigurieren von Computing für Aufträge.
  • Ein festgelegter Zeitplan für die Ausführung des Auftrags. Optional können Sie das Festlegen eines Zeitplans weglassen und den Auftrag manuell auslösen.
  • Ein eindeutiger Name.

Neues Projekt erstellen

In diesem Abschnitt werden die Schritte zum Erstellen eines neuen Auftrags mit einer Notizbuchaufgabe und dem Zeitplan mit der Arbeitsbereichsbenutzeroberfläche beschrieben.

Aufträge enthalten mindestens eine Aufgabe. Sie erstellen einen neuen Auftrag, indem Sie die erste Aufgabe für diesen Auftrag konfigurieren.

Hinweis

Jeder Aufgabentyp verfügt über dynamische Konfigurationsoptionen in der Benutzeroberfläche des Arbeitsbereichs. Siehe Konfigurieren und Bearbeiten von Databricks-Aufgaben.

  1. Klicken Sie auf der Seitenleiste auf Symbol für WorkflowsWorkflows und dann auf Auftrag erstellen.
  2. Geben Sie einen Auftragsnamen ein.
  3. Wählen Sie ein Notebook für das Feld Pfad aus.
  4. Klicken Sie auf Aufgabe erstellen.

Wenn Ihr Arbeitsbereich nicht für serverloses Computing für Aufträge aktiviert ist, müssen Sie eine Compute-Option auswählen. Databricks empfiehlt, bei der Konfiguration von Tasks immer Jobs Compute zu verwenden.

Ein neuer Auftrag erscheint in der Auftragsliste des Arbeitsbereichs mit dem Standardnamen New Job <date> <time>.

Sie können weiterhin weitere Aufgaben innerhalb desselben Auftrags hinzufügen, falls erforderlich für Ihren Workflow.

Planen eines Auftrags

Sie können entscheiden, wann Ihr Auftrag ausgeführt wird. Standardmäßig wird sie nur ausgeführt, wenn Sie sie manuell starten, aber Sie können sie auch so konfigurieren, dass sie automatisch ausgeführt wird. Sie können einen Trigger erstellen, um einen Auftrag nach einem Zeitplan oder basierend auf einem Ereignis auszuführen.

Steuern des Aufgabenflusses innerhalb des Auftrags

Beim Konfigurieren mehrerer Aufgaben in Aufträgen können Sie spezielle Aufgaben verwenden, um zu steuern, wie die Aufgaben ausgeführt werden. Siehe Steuern des Aufgabenflusses innerhalb eines Databricks-Auftrags.

Wählen Sie einen Auftrag aus, der im Arbeitsbereich bearbeitet werden soll.

Gehen Sie wie folgt vor, um einen vorhandenen Auftrag mit der Arbeitsbereich-Benutzeroberfläche zu bearbeiten:

  1. Klicken Sie in der Randleiste auf Symbol für WorkflowsWorkflows.
  2. Klicken Sie in der Spalte Name auf den Auftragsnamen.

Verwenden Sie die Benutzeroberfläche für Aufträge, um Folgendes zu tun:

  • Auftragseinstellungen bearbeiten
  • Umbenennen, Klonen oder Löschen eines Auftrags
  • Hinzufügen neuer Aufgaben zu einem vorhandenen Auftrag
  • Bearbeiten von Aufgabeneinstellungen

Hinweis

Sie können auch die JSON-Definitionen für die Verwendung mit den REST-API-Endpunkten Abrufen, Erstellen und Zurücksetzen anzeigen.

Auftragseinstellungen bearbeiten

Im Seitenbereich sind die Auftragsdetails aufgeführt. Sie können den Job-Trigger, die Computekonfiguration, Benachrichtigungen und die maximale Anzahl gleichzeitiger Ausführungen ändern, Schwellenwerte für die Dauer konfigurieren und Tags hinzufügen oder ändern. Sie können außerdem Auftragsberechtigungen bearbeiten, wenn die Zugriffssteuerung für Aufträge aktiviert ist.

Hinzufügen von Parametern für alle Auftragsaufgaben

Auf Auftragsebene konfigurierte Parameter werden an eine der Aufgaben des Auftrags übergeben, die Schlüsselwertparameter akzeptiert, einschließlich Python-Wheel-Dateien, die für die Annahme von Schlüsselwortargumenten konfiguriert sind. Siehe Aufträge parametrisieren.

Hinzufügen von Tags zu einem Auftrag

Um Ihrem Auftrag Bezeichnungen oder Schlüssel-Wert-Attribute hinzuzufügen, können Sie beim Bearbeiten des Auftrags Tags hinzufügen. Sie können Aufträge in der Auftragsliste mit Hilfe von Tags filtern. Sie können zum Beispiel ein department-Tag verwenden, um alle Aufträge zu filtern, die zu einer bestimmten Abteilung gehören.

Hinweis

Da Auftragstags nicht für das Speichern vertraulicher Informationen wie personenbezogener Informationen oder Kennwörter konzipiert sind, empfiehlt Databricks die Verwendung von Tags nur für nicht vertrauliche Werte.

Tags werden auch an Auftragscluster übermittelt, die beim Ausführen eines Auftrags erstellt werden, sodass Sie die Tags auch für Ihre vorhandene Clusterüberwachung verwenden können.

Klicken Sie im Seitenbereich Auftragsdetails auf + Tag, um Tags hinzuzufügen oder zu bearbeiten. Sie können das Tag als Bezeichnung oder als Schlüssel-Wert-Paar hinzufügen. Um eine Bezeichnung hinzuzufügen, geben Sie diese im Feld Schlüssel ein und lassen das Feld Wert leer.

Hinzufügen einer Budgetrichtlinie zu einem Auftrag

Wichtig

Dieses Feature befindet sich in der Public Preview.

Wenn Ihr Arbeitsbereich Budgetrichtlinien verwendet, um serverlose Nutzung zuzuweisen, können Sie die Budgetrichtlinie Ihrer Aufträge mithilfe der Einstellung Budgetrichtlinie in der Auftragsdetails Seitenleiste auswählen. Weitere Informationen finden Sie unter Attribuieren der serverlosen Nutzung mit Budgetrichtlinien.

Umbenennen, Klonen oder Löschen eines Auftrags

Um einen Auftrag umzubenennen, wechseln Sie zur Auftrags-UI, und klicken Sie auf den Namen des Auftrags.

Sie können schnell einen neuen Auftrag erstellen, indem Sie einen vorhandenen Auftrag klonen. Beim Klonen eines Auftrags wird, abgesehen von der Auftrags-ID, eine identische Kopie des Auftrags erstellt. Gehen Sie wie folgt vor, um einen Auftrag zu klonen:

  1. Wechseln Sie zur Benutzeroberfläche des Auftrags.
  2. Klicken Sie neben der Schaltfläche Kebab menuJetzt ausführen auf .
  3. Wählen Sie aus dem Dropdown-Menü die Option Auftrag klonen aus.
  4. Geben Sie einen Namen für den geklonten Auftrag ein.
  5. Klicke auf Klonen.

Löschen eines Auftrags

Um einen Auftrag auf der Seite des Auftrags zu löschen, klicken Sie neben dem Auftragsnamen auf Kebab-Menü, und wählen Sie im Dropdown-Menü die Option Auftrag löschen aus.

Verwenden von Git mit Aufträgen

Wenn Ihr Auftrag Aufgaben enthält, die die Verwendung eines Git-Remote-Providers unterstützen, enthält die Auftrags-Benutzeroberfläche ein Git-Feld und die Möglichkeit, Git-Einstellungen hinzuzufügen oder zu bearbeiten.

Sie können die folgenden Aufgabentypen für die Verwendung eines Git-Remoterepository konfigurieren:

  • Notebooks
  • Python-Skripts
  • SQL-Dateien
  • dbt

Alle Aufgaben in einem Auftrag müssen auf dieselbe Übertragung im Remoterepository verweisen. Sie müssen für einen Auftrag, der eine Remoterepository verwendet, nur eine der folgenden Angaben machen:

  • Branch: der Name der Verzweigung, z. B. main.
  • Tag: der Name des Tags, z. B. release-1.0.0.
  • Committ: der Hash eines bestimmten Commits z. B. e0056d01.

Zu Beginn eines Auftragslaufs nimmt Databricks einen Snapshot-Commit des Remotedepository vor, um sicherzustellen, dass der gesamte Auftrag mit der gleichen Codeversion ausgeführt wird.

Wenn Sie den Ausführungsverlauf einer Aufgabe anzeigen, die in einem Git-Remoterepository gespeicherten Code ausführt, enthält der Bereich Taskausführungsdetails Git-Details – einschließlich der Commit-SHA, die der Ausführung zugeordnet ist. Weitere Informationen finden Sie unter Anzeigen des Ausführungsverlaufs von Aufgaben.

Hinweis

Aufgaben, die für die Verwendung eines Git-Remoterepository konfiguriert sind, können nicht in Arbeitsbereichsdateien geschrieben werden. Diese Aufgaben müssen temporäre Daten in den flüchtigen Speicher schreiben, der an den Treiberknoten des für die Ausführung der Aufgabe konfigurierten Compute angehängt ist, und permanente Daten auf einem Volume oder in einer Tabelle speichern.

Databricks empfiehlt das Verweisen auf Arbeitsbereichspfade in Git-Ordnern nur für schnelle Iteration und Tests während der Entwicklung. Während Sie Aufträge in Staging und Produktion verschieben, empfiehlt Databricks, diese Aufträge so zu konfigurieren, dass auf ein Remote-Git-Repository verwiesen wird. Weitere Informationen zur Verwendung eines Remote-Git-Repositorys mit einem Databricks-Auftrag finden Sie im folgenden Abschnitt.

Konfigurieren eines Git-Anbieters

Die Benutzeroberfläche für Jobs enthält einen Dialog zur Konfiguration eines Git-Remoterepository. Dieses Dialogfeld ist über den Bereich Job-Detail unter der Überschrift Git zugänglich oder in jeder Aufgabe, die für die Verwendung eines Git-Anbieters konfiguriert ist.

Die Optionen, die für den Zugriff auf das Dialogfeld angezeigt werden, hängen vom Aufgabentyp ab und davon, ob für den Auftrag bereits eine Git-Referenz konfiguriert wurde oder nicht. Die Schaltflächen zum Starten des Dialogfelds umfassen Git-Einstellungen hinzufügen, Bearbeiten oder Git-Referenz hinzufügen.

Geben Sie im Dialogfeld Git-Informationen (das nur mit Git bezeichnet wird, wenn der Zugriff über das Fenster Auftragsdetails erfolgt) die folgenden Angaben ein:

  • Die Git-Repository-URL.
  • Wählen Sie in der Dropdownliste Ihren Git-Anbieter aus.
  • Geben Sie in das Feld Git-Referenz die Kennung einer Verzweigung, eines Tags oder einer Übertragung ein, die der Version des Quellcodes entspricht, die Sie ausführen möchten.
  • Wählen Sie in der Dropdownliste Branch, Commit oder Tag aus.

Hinweis

Das Dialogfeld fordert Sie möglicherweise mit folgendem Hinweis auf: Git-Anmeldeinformationen für dieses Konto fehlen. Anmeldeinformationen hinzufügen. Sie müssen ein Git-Remoterepository konfigurieren, bevor Sie es als Referenz verwenden. Siehe Einrichten von Git-Ordnern für Databricks (Repos).

Konfigurieren von Schwellenwerten für die Ausführungsdauer des Auftrags oder für Streaming-Backlogmetriken

Wichtig

Streamingeinblicke für Databricks-Aufträge befinden sich in der Public Preview.

Sie können optionale Schwellenwerte für die Dauer der Auftragsausführung oder Streaming-Backlogmetriken konfigurieren. Klicken Sie zum Konfigurieren von Grenzwerten für die Dauer oder Streamingmetriken im Panel Auftragsdetails auf Grenzwerte für die Dauer und Streamingbacklogs.

Zum Konfigurieren von Schwellenwerten für die Auftragsdauer, einschließlich erwarteter und maximaler Abschlusszeiten für den Auftrag, wählen Sie Ausführungsdauer im Dropdownmenü Metrik aus. Geben Sie zum Konfigurieren der voraussichtlichen Fertigstellungszeit des Auftrags die Dauer in das Feld Warnung ein. Wenn der Auftrag diesen Schwellenwert überschreitet, wird ein Ereignis ausgelöst. Sie können dieses Ereignis verwenden, um benachrichtigt zu werden, wenn ein Auftrag langsam ausgeführt wird. Siehe Konfigurieren von Benachrichtigungen für langsame Aufträge. Um eine maximale Abschlusszeit für einen Auftrag zu konfigurieren, geben Sie die maximale Dauer in das Feld Timeout ein. Wenn der Auftrag nicht innerhalb dieses Zeitraums abgeschlossen wird, legt Azure Databricks den Auftragsstatus auf „Zeitüberschreitung“ fest.

Um einen Schwellenwert für eine Streaming-Backlog-Metrik zu konfigurieren, wählen Sie die Metrik im Dropdownmenü Metrik aus, und geben Sie einen Wert für den Schwellenwert ein. Informationen zu den spezifischen Metriken, die von einer Streamingquelle unterstützt werden, finden Sie unter Anzeigen von Metriken für Streamingaufgaben.

Wenn ein Ereignis ausgelöst wird, weil ein Schwellenwert überschritten wird, können Sie das Ereignis verwenden, um eine Benachrichtigung zu senden. Siehe Konfigurieren von Benachrichtigungen für langsame Aufträge.

Sie können optional Schwellenwerte für die Dauer für Vorgänge angeben. Siehe Konfigurieren von Schwellenwerten für die Dauer der Vorgangsausführung oder Streaming-Backlogmetriken.