Freigeben über


Verwalten von Clustern

Dieser Artikel beschreibt die Verwaltung von Azure Databricks-Clustern, einschließlich Anzeigen, Bearbeiten, Starten, Beenden, Löschen, Steuern des Zugriffs und Überwachen von Leistung und Protokolle.

Anzeigen von Clustern

Um die Cluster in Ihrem Arbeitsbereich anzuzeigen, klicken Sie in der Seitenleiste auf compute iconCompute.

Auf der linken Seite befinden sich zwei Spalten, die anzeigen, ob der Cluster angeheftet wurde und welchen Status er aufweist. Zeigen Sie mit der Maus auf den Status, um weitere Informationen zu erhalten.

Anheften eines Clusters

30 Tage nach dem Beenden eines Clusters wird er endgültig gelöscht. Wenn Sie die Konfiguration eines Universalclusters nach seiner Beendigung länger als 30 Tage beibehalten möchten, kann ein*e Administrator*in den Cluster anheften. Es können bis zu 100 Cluster angeheftet werden.

Administratoren können einen Cluster aus der Clusterliste oder der Clusterdetailseite anheften, indem sie auf das Anheftsymbol klicken.

Sie können auch den API-Endpunkt Cluster-API aufrufen, um einen Cluster programmgesteuert anzuheften.

Anzeigen einer Clusterkonfiguration als JSON-Datei

Manchmal kann es hilfreich sein, Ihre Clusterkonfiguration als JSON anzuzeigen. Dies ist besonders nützlich, wenn Sie ähnliche Cluster mit der Cluster-API erstellen möchten. Wenn Sie einen vorhandenen Cluster anzeigen, wechseln Sie zur Registerkarte Konfiguration, klicken Sie oben rechts auf der Registerkarte auf JSON, kopieren Sie den JSON-Code und fügen Sie ihn in Ihren API-Aufruf ein. Die JSON-Ansicht ist schreibgeschützt.

Bearbeiten eines Clusters

Sie können eine Clusterkonfiguration über die Benutzeroberfläche mit den Clusterdetails bearbeiten. Sie können auch den Endpunkt Cluster-API aufrufen, um den Cluster programmgesteuert zu bearbeiten.

Hinweis

  • Notebooks und Aufträge, die an den Cluster angefügt wurden, bleiben nach der Bearbeitung angefügt.
  • Auf dem Cluster installierte Bibliotheken bleiben nach der Bearbeitung installiert.
  • Wenn Sie ein Attribut eines ausgeführten Clusters bearbeiten (mit Ausnahme der Clustergröße und -berechtigungen), müssen Sie ihn neu starten. Dies kann Benutzer stören, die den Cluster derzeit verwenden.
  • Sie können nur ausgeführte oder beendete Cluster bearbeiten. Sie können jedoch auf der Seite mit den Clusterdetails Berechtigungen für Cluster aktualisieren, die sich nicht in diesen Zuständen befinden.

Klonen eines Clusters

Um einen vorhandenen Cluster zu klonen, wählen Sie die Option Klonen im Kebab menu Kebab-Menü des Clusters (auch als Drei-Punkte-Menü bezeichnet) aus.

Nachdem Sie „Klonen” ausgewählt haben, wird die Benutzeroberfläche für die Clustererstellung mit der Clusterkonfiguration geöffnet. Die folgenden Attribute sind nicht im Klon enthalten:

  • Clusterberechtigungen
  • Installierte Bibliotheken
  • Angefügte Notebooks

Steuern des Zugriffs auf Cluster

Mit der Clusterzugriffssteuerung auf der Seite mit den Administratoreinstellungen können Arbeitsbereichsadministratoren anderen Benutzer differenzierten Clusterzugriff gewähren. Es gibt zwei Typen von Cluster-Zugriffssteuerung:

  • Berechtigung zum Erstellen von Clustern: Arbeitsbereichsadministratoren können auswählen, welche Benutzer Cluster erstellen dürfen.
  • Berechtigungen auf Clusterebene: Benutzer*innen, die über die Berechtigung Kann verwalten für einen Cluster verfügen, können festlegen, ob andere Benutzer*innen an diesen Cluster anfügen, ihn neu starten, seine Größe ändern und ihn verwalten können.

Um die Berechtigungen für einen Cluster zu bearbeiten, wählen Sie die Option Berechtigungen bearbeiten im Kebab menu Kebab-Menü des Clusters aus.

Weitere Informationen zur Clusterzugriffssteuerung und den Berechtigungen auf Clusterebene finden Sie unter Clusterzugriffssteuerung.

Beenden eines Clusters

Zum Speichern von Clusterressourcen können Sie einen Cluster beenden. Die Konfiguration des beendeten Clusters wird gespeichert, sodass sie zu einem späteren Zeitpunkt wiederverwendet (oder im Falle von Aufträgen automatisch gestartet) werden kann. Sie können einen Cluster manuell beenden oder ihn so konfigurieren, dass er nach einer angegebenen Zeit der Inaktivität automatisch beendet wird. Wenn die Anzahl der beendeten Cluster 150 überschreitet, werden die ältesten Cluster gelöscht.

Sofern ein Cluster nicht angeheftet ist oder neu gestartet wurde, wird er 30 Tage nach dem Beenden automatisch und dauerhaft gelöscht.

Beendete Cluster werden in der Clusterliste mit einem grauen Kreis links neben dem Clusternamen angezeigt.

Hinweis

Wenn Sie einen Auftrag auf einem neuen Auftragscluster ausführen (was in der Regel empfohlen wird), wird der Cluster beendet und steht nach Abschluss des Auftrags nicht mehr zum Neustarten zur Verfügung. Wenn Sie andererseits planen, dass ein Auftrag auf einem vorhandenen Allzweckcluster ausgeführt wird, der beendet wurde, wird dieser Cluster automatisch gestartet.

Wichtig

Wenn Sie eine Premium-Arbeitsbereich-Testversion verwenden, werden alle ausgeführten Cluster beendet:

  • Wenn Sie ein Upgrade eines Arbeitsbereichs auf die vollständige Premium-Version durchführen.
  • Wenn der Arbeitsbereich nicht aktualisiert wird und die Testversion abläuft.

Manuelle Beendigung

Sie können einen Cluster manuell in der Clusterliste (durch Klicken auf das Quadrat in der Zeile des Clusters) oder auf der Clusterdetailseite (durch Klicken auf Beenden) beenden.

Automatische Beendigung

Sie können auch die automatische Beendigung für einen Cluster festlegen. Während der Clustererstellung können Sie einen Inaktivitätszeitraum in Minuten angeben, nach dem der Cluster beendet werden soll.

Wenn der Unterschied zwischen der aktuellen Zeit und der letzten Ausführung des Befehls im Cluster größer als der angegebene Inaktivitätszeitraum ist, beendet Azure Databricks diesen Cluster automatisch.

Ein Cluster gilt als inaktiv, wenn alle Befehle im Cluster, einschließlich Spark-Aufträgen, strukturiertem Streaming und JDBC-Aufrufen, die Ausführung abgeschlossen haben.

Warnung

  • Cluster melden keine Aktivitäten, die sich aus der Verwendung von DStreams ergeben. Dies bedeutet, dass ein automatisch beendeter Cluster während der Ausführung von DStreams beendet werden kann. Deaktivieren Sie die automatische Beendigung für Cluster, auf denen DStreams ausgeführt werden, oder erwägen Sie die Verwendung von strukturiertem Streaming.
  • Das Feature für die automatische Beendigung überwacht nur Spark-Aufträge, keine benutzerdefinierten lokalen Prozesse. Wenn also alle Spark-Aufträge abgeschlossen wurden, kann ein Cluster beendet werden, auch wenn lokale Prozesse ausgeführt werden.
  • Bei Clustern im Leerlauf fallen während der Inaktivitätsphase vor der Beendigung weiterhin DBU- und Cloud-Instanzgebühren an.

Konfigurieren der automatischen Beendigung

Sie können die automatische Beendigung auf der Benutzeroberfläche zum Erstellen von Clustern konfigurieren. Stellen Sie sicher, dass das Kontrollkästchen aktiviert ist, und geben Sie in der Einstellung Beenden nach ___ Minuten ohne Aktivität eine Anzahl von Minuten ein.

Sie können die automatische Beendigung deaktivieren, indem Sie das Kontrollkästchen „Automatische Beendigung“ deaktivieren oder einen Inaktivitätszeitraum von 0 angeben.

Hinweis

Die automatische Beendigung wird in den neuesten Spark-Versionen am besten unterstützt. Ältere Spark-Versionen weisen bekannte Einschränkungen auf, die zu ungenauen Berichten der Clusteraktivität führen können. Beispielsweise können Cluster, die JDBC-, R- oder Streamingbefehle ausführen, eine veraltete Aktivitätszeit melden, die zu einer vorzeitigen Clusterbeendigung führt. Führen Sie ein Upgrade auf die neueste Spark-Version durch, um von Fehlerbehebungen und Verbesserungen bei der automatischen Beendigung zu profitieren.

Unerwartete Beendigung

Es kann vorkommen, dass ein Cluster unerwartet beendet wird, und zwar nicht aufgrund einer manuellen Beendigung oder einer konfigurierten automatischen Beendigung.

Eine Liste der Beendigungsgründe und Korrekturschritte finden Sie in der Wissensdatenbank.

Löschen eines Clusters

Durch das Löschen eines Clusters wird der Cluster beendet und seine Konfiguration entfernt. Um einen Cluster zu löschen, wählen Sie die Option Löschen im Kebab menu Kebab-Menü des Clusters aus.

Warnung

Dieser Vorgang lässt sich nicht rückgängig machen.

Um einen angehefteten Cluster zu löschen, muss er zunächst von einem Administrator gelöst werden.

Sie können auch den Endpunkt Cluster-API aufrufen, um einen Cluster programmgesteuert zu löschen.

Neustarten eines Clusters

Sie können einen zuvor beendeten Cluster über die Clusterliste, die Clusterdetailseite oder ein Notebook neu starten. Sie können auch den Endpunkt Cluster-API aufrufen, um einen Cluster programmgesteuert zu starten.

Azure Databricks identifiziert einen Cluster über seine eindeutige Cluster-ID. Wenn Sie einen beendeten Cluster starten, erstellt Databricks den Cluster mit der gleichen ID neu, installiert automatisch alle Bibliotheken und fügt die Notebooks neu an.

Hinweis

Wenn Sie einen Testarbeitsbereich verwenden und die Testversion abgelaufen ist, können Sie keinen Cluster starten.

Einen Cluster neu starten, um ihn mit den neuesten Images zu aktualisieren

Wenn Sie einen Cluster neu starten, ruft er die neuesten Images für die Container der Berechnungsressourcen und die VM-Hosts ab. Es ist wichtig, regelmäßige Neustarts für zeitintensive Cluster zu planen, etwa solche, die für die Verarbeitung von Streamingdaten verwendet werden.

Es liegt in Ihrer Verantwortung, alle Berechnungsressourcen regelmäßig neu zu starten, um das Image mit der neuesten Image-Version auf dem neuesten Stand zu halten.

Wichtig

Wenn Sie das Compliance-Sicherheitsprofil für Ihr Konto oder Ihren Arbeitsbereich aktivieren, werden Cluster mit langer Ausführungszeit automatisch nach 25 Tagen neu gestartet. Databricks empfiehlt Arbeitsbereichsadministratoren, Cluster während eines geplanten Wartungsfensters manuell neu zu starten. Dadurch wird das Risiko verringert, dass ein automatischer Neustart einen geplanten Auftrag unterbricht.

Notebookbeispiel: Suchen von zeitintensiven Clustern

Wenn Sie Arbeitsbereichsadministrator *in sind, können Sie ein Skript ausführen, das bestimmt, wie lang die einzelnen Cluster ausgeführt wurden, und sie optional neu starten, wenn sie älter als eine bestimmte Anzahl von Tagen sind. Azure Databricks stellt dieses Skript als Notebook bereit.

Die ersten Zeilen des Skripts definieren Konfigurationsparameter:

  • min_age_output: Die maximale Anzahl von Tagen, die ein Cluster ausführen kann. Der Standardwert ist 1.
  • perform_restart: Wenn True, startet das Skript die Cluster, die älter sind als die durch min_age_output angegebene Anzahl von Tagen, neu. Die Standardeinstellung ist False, die die zeitintensiven Cluster identifiziert, aber sie nicht neu startet.
  • secret_configuration: Ersetzen Sie REPLACE_WITH_SCOPE und REPLACE_WITH_KEY durch einen Geheimnisbereich und einen Schlüsselnamen. Weitere Informationen zum Einrichten der Geheimnisse finden Sie im Notebook.

Warnung

Wenn Sie perform_restart auf True setzen, startet das Skript geeignete Cluster automatisch neu, was dazu führen kann, dass aktive Aufträge fehlschlagen und geöffnete Notebooks zurückgesetzt werden. Um das Risiko einer Unterbrechung der unternehmenskritischen Aufträge Ihres Arbeitsbereichs zu reduzieren, planen Sie ein geplantes Wartungsfenster ein, und benachrichtigen Sie die Arbeitsbereichsbenutzer*innen.

Identifizieren und optionales Neustarten des Notebooks für zeitintensive Cluster

Notebook abrufen

Automatischer Clusterstart für Aufträge und JDBC/ODBC-Abfragen

Wenn ein Auftrag, der einem beendeten Cluster zugewiesen ist, ausgeführt werden soll oder Sie über eine JDBC-/ODBC-Schnittstelle eine Verbindung mit einem beendeten Cluster herstellen, wird der Cluster automatisch neu gestartet. Weitere Informationen finden Sie unter Erstellen eines Auftrags und Herstellen einer JDBC-Verbindung.

Mit dem automatischen Clusterstart können Sie Cluster so konfigurieren, dass sie automatisch beendet werden, ohne dass ein manueller Eingriff zum Neustart der Cluster für geplante Aufträge erforderlich ist. Darüber hinaus können Sie die Clusterinitialisierung planen, indem Sie einen Auftrag für die Ausführung in einem beendeten Cluster planen.

Bevor ein Cluster automatisch neu gestartet wird, werden die Berechtigungen für die Cluster- und Auftrags- Zugriffssteuerung überprüft.

Hinweis

Wenn Ihr Cluster in Azure Databricks Plattformversion 2.70 oder früher erstellt wurde, gibt es keinen automatischen Start: Aufträge, die für die Ausführung auf beendeten Clustern geplant sind, schlagen fehl.

Anzeigen von Clusterinformationen in der Apache Spark-Benutzeroberfläche

Sie können detaillierte Informationen zu Spark-Aufträgen anzeigen, indem Sie die Registerkarte Spark-Benutzeroberfläche auf der Clusterdetailseite auswählen.

Wenn Sie einen beendeten Cluster neu starten, zeigt die Spark-Benutzeroberfläche Informationen für den neu gestarteten Cluster und nicht die Verlaufsinformationen für den beendeten Cluster an.

Anzeigen von Clusterprotokollen

Azure Databricks bietet drei Arten der Protokollierung clusterbezogener Aktivitäten:

  • Clusterereignisprotokolle, die Clusterlebenszyklusereignisse erfassen, z. B. Erstellung, Beendigung, Konfigurationsbearbeitungen usw.
  • Apache Spark-Treiber- und Workerprotokolle, die Sie zum Debuggen verwenden können.
  • Cluster-Initialisierungsskript-Protokolle, die für das Debuggen von Initialisierungsskripts nützlich sind.

In diesem Abschnitt werden Clusterereignisprotokolle sowie Treiber- und Workerprotokolle erläutert. Ausführliche Informationen zu Init-Skript-Protokollen finden Sie unter Init-Skript-Protokollierung.

Clusterereignisprotokolle

Das Clusterereignisprotokoll zeigt wichtige Ereignisse im Clusterlebenszyklus an, die manuell durch Benutzeraktionen oder automatisch durch Azure Databricks ausgelöst werden. Diese Ereignisse beeinflussen den Betrieb eines Clusters als Ganzes und die Aufträge, die im Cluster ausgeführt werden.

Informationen zu unterstützten Ereignistypen finden Sie in der Cluster-API-Datenstruktur.

Ereignisse werden 60 Tage lang gespeichert. Dies entspricht den gängigen Datenaufbewahrungszeiten in Azure Databricks.

Anzeigen des Clusterereignisprotokolls

Um das Ereignisprotokoll des Clusters anzuzeigen, wählen Sie die Registerkarte Ereignisprotokoll auf der Clusterdetailseite aus.

Um weitere Informationen zu einem Ereignis zu erhalten, klicken Sie auf die Zeile im Protokoll und dann auf die Registerkarte JSON.

Clustertreiber- und Workerprotokolle

Die Direktdruck- und Protokollanweisungen aus Ihren Notebooks, Aufträgen und Bibliotheken werden zu den Spark-Treiberprotokollen geleitet. Sie können auf diese Dateien über die Registerkarte Treiberprotokolle auf der Clusterdetailseite zugreifen. Klicken Sie auf den Namen einer Protokolldatei, um sie herunterzuladen.

Diese Protokolle weisen drei Ausgaben auf:

  • Standardausgabe
  • Standardfehler
  • Log4j-Protokolle

Zum Anzeigen von Spark-Workerprotokollen können Sie die Registerkarte Spark-Benutzeroberfläche verwenden. Sie können außerdem einen Protokollspeicherort für den Cluster konfigurieren. Sowohl Worker- als auch Clusterprotokolle werden an den von Ihnen angegebenen Speicherort übermittelt.

Überwachen der Leistung

Zur Überwachung der Leistung von Azure Databricks-Clustern bietet Azure Databricks über die Detailseite des Clusters Zugriff auf Metriken. Für Databricks Runtime 12.2 und niedriger bietet Azure Databricks Zugriff auf Ganglia-Metriken. Für Databricks Runtime 13.0 und höher werden Clustermetriken von Azure Databricks bereitgestellt.

Darüber hinaus können Sie einen Azure Databricks-Cluster so konfigurieren, dass Metriken an einen Log Analytics-Arbeitsbereich in Azure Monitor (die Überwachungsplattform für Azure) gesendet werden.

Sie können außerdem Datadog-Agents auf Clusterknoten installieren, um Datadog-Metriken an Ihr Datadog-Konto zu senden.

Clustermetriken

Clustermetriken sind das Standardüberwachungstool für Databricks Runtime 13.0 und höher. Navigieren Sie auf der Seite mit den Clusterdetails zur Registerkarte Metriken, um auf die Benutzeroberfläche für die Clustermetriken zuzugreifen.

Sie können Verlaufsmetriken anzeigen, indem Sie mithilfe des Datumsauswahlfilters einen Zeitbereich auswählen. Metriken werden jede Minute erfasst. Sie können auch die neuesten Metriken abrufen, indem Sie auf die Schaltfläche Aktualisieren klicken. Weitere Informationen finden Sie unter Anzeigen von Live- und Verlaufsclustermetriken.

Ganglia-Metriken

Hinweis

Ganglia-Metriken sind nur für Databricks Runtime 12.2 und niedriger verfügbar.

Navigieren Sie auf der Seite mit den Clusterdetails zur Registerkarte Metriken, um auf die Ganglia-Benutzeroberfläche zuzugreifen. CPU-Metriken sind auf der Ganglia-Benutzeroberfläche für alle Databricks-Runtimes verfügbar. GPU-Metriken sind für GPU-fähige Cluster verfügbar.

Klicken Sie zum Anzeigen von Livemetriken auf den Link zur Ganglia-Benutzeroberfläche.

Klicken Sie auf eine Momentaufnahmedatei, um Verlaufsmetriken anzuzeigen. Die Momentaufnahme enthält aggregierte Metriken für die Stunde vor der ausgewählten Zeit.

Hinweis

Ganglia wird bei Docker-Containern nicht unterstützt. Wenn Sie einen Docker-Container mit Ihrem Cluster verwenden, sind Ganglia-Metriken nicht verfügbar.

Konfigurieren der Sammlung von Ganglia-Metriken

Azure Databricks sammelt standardmäßig alle 15 Minuten Ganglia-Metriken. Legen Sie zum Konfigurieren des Sammlungszeitraums die Umgebungsvariable DATABRICKS_GANGLIA_SNAPSHOT_PERIOD_MINUTES mithilfe eines Initialisierungsskripts oder im Feld spark_env_vars in der Clustererstellungs-API fest.

Azure Monitor

Sie können einen Azure Databricks-Cluster so konfigurieren, dass Metriken an einen Log Analytics-Arbeitsbereich in Azure Monitor (die Überwachungsplattform für Azure) gesendet werden. Eine vollständige Anleitung finden Sie unter Überwachen von Azure Databricks.

Hinweis

Wenn Sie den Azure Databricks-Arbeitsbereich in Ihrem eigenen virtuellen Netzwerk bereitgestellt haben und Netzwerksicherheitsgruppen (NSG) so konfiguriert haben, dass der von Azure Databricks nicht benötigte ausgehende Datenverkehr verweigert wird, müssen Sie eine zusätzliche ausgehende Regel für das Diensttag „AzureMonitor“ konfigurieren.

Notebookbeispiel: Datadog-Metriken

Datadog metrics

Sie können Datadog-Agents auf Clusterknoten installieren, um Datadog-Metriken an Ihr Datadog-Konto zu senden. Im folgenden Notebook wird veranschaulicht, wie Sie einen Datadog-Agent mithilfe eines clusterspezifischen Init-Skripts in einem Cluster installieren.

Um den Datadog-Agent auf allen Clustern zu installieren, verwalten Sie das clusterbezogene Initialisierungsskript mithilfe einer Clusterrichtlinie.

Installieren des Datadog-Agent-Init-Skript-Notebooks

Notebook abrufen

Außerbetriebnahme von Spotinstanzen

Da Spotinstanzen Kosten senken können, ist das Erstellen von Clustern mit Spotinstanzen anstelle von bedarfsbasierten Instanzen eine gängige Methode zum Ausführen von Aufträgen. Spotinstanzen können jedoch durch Planungsmechanismen des Cloudanbieters vorverlegt werden. Die Vorabbeendung von Spotinstanzen kann zu Problemen mit ausgeführten Aufträgen führen, z. B.:

  • Fehler beim Shuffle-Abruf
  • Shuffle-Datenverlust
  • RDD-Datenverlust
  • Auftragsfehler

Sie können die Außerbetriebnahme aktivieren, um diese Probleme zu beheben. Die Außerbetriebnahme nutzt die Benachrichtigung, die der Cloudanbieter normalerweise sendet, bevor eine Spotinstanz außer Betrieb genommen wird. Wenn eine Spotinstanz, die einen Executor enthält, eine Vorabbenachrichtigung empfängt, versucht der Außerbetriebsetzungsprozess, Shuffle- und RDD-Daten zu fehlerfreien Executors zu migrieren. Die Dauer vor der endgültigen Vorabbeendung beträgt je nach Cloudanbieter in der Regel 30 Sekunden bis 2 Minuten.

Databricks empfiehlt, die Datenmigration zu aktivieren, wenn die Außerbetriebnahme ebenfalls aktiviert ist. Im Allgemeinen nimmt die Wahrscheinlichkeit von Fehlern ab, wenn mehr Daten migriert werden, einschließlich Shuffle-Fetchingfehlern, Shuffle-Datenverlust und RDD-Datenverlust. Die Datenmigration kann auch zu einer geringeren Neuberechnung führen und Kosten sparen.

Hinweis

Die Außerbetriebnahme basiert auf dem Best-Effort-Prinzip und garantiert nicht, dass alle Daten vor der vorzeitigen Entfernung migriert werden können. Die Außerbetriebnahme kann nicht gegen Shuffle-Abruffehler garantieren, wenn ausgeführte Tasks Shuffledaten vom Executor abrufen.

Wenn die Außerbetriebnahme aktiviert ist, werden Aufgabenfehler, die durch die Vorabverlegung von Spotinstanzen verursacht werden, nicht zur Gesamtzahl der fehlgeschlagenen Versuche hinzugefügt. Aufgabenfehler, die durch die Vorabbeendung verursacht werden, werden nicht als fehlgeschlagene Versuche gezählt, da die Ursache des Fehlers außerhalb der Aufgabe liegt und nicht zu Auftragsfehlern führt.

Außerbetriebnahme aktivieren

Um die Außerbetriebnahme für einen Cluster zu aktivieren, geben Sie auf der Registerkarte Spark unter Erweiterte Optionen auf der Benutzeroberfläche der Clusterkonfiguration die folgenden Eigenschaften ein. Informationen zu diesen Eigenschaften finden Sie unter Spark-Konfiguration.

  • Um die Außerbetriebnahme für Anwendungen zu aktivieren, geben Sie diese Eigenschaft in das Feld Spark-Konfiguration ein:

    spark.decommission.enabled true
    
  • Um die Shuffle-Datenmigration während der Außerbetriebnahme zu aktivieren, geben Sie diese Eigenschaft in das Feld Spark-Konfiguration ein:

    spark.storage.decommission.enabled true
    spark.storage.decommission.shuffleBlocks.enabled true
    
  • Um die RDD-Cache-Datenmigration während der Außerbetriebnahme zu aktivieren, geben Sie diese Eigenschaft in das Feld Spark-Konfiguration ein:

    spark.storage.decommission.enabled true
    spark.storage.decommission.rddBlocks.enabled true
    

    Hinweis

    Wenn die RDD StorageLevel-Replikation auf mehr als 1 festgelegt ist, empfiehlt Databricks nicht, die RDD-Datenmigration zu aktivieren, da die Replikate sicherstellen, dass RDDs keine Daten verlieren.

  • Um die Außerbetriebnahme für Worker zu aktivieren, geben Sie diese Eigenschaft in das Feld Umgebungsvariablen ein :

    SPARK_WORKER_OPTS="-Dspark.decommission.enabled=true"
    

Anzeigen des Außerbetriebnahmestatus und der Verlustursache auf der Benutzeroberfläche

Um über die Benutzeroberfläche auf den Außerbetriebnahmestatus eines Workers zu zugreifen, navigieren Sie zur Registerkarte Spark Cluster UI – Master.

Wenn die Außerbetriebnahme abgeschlossen ist, können Sie den Verlustgrund des Executors auf der Registerkarte Spark-Benutzeroberfläche > Executors auf der Seite mit den Clusterdetails anzeigen.