Debuggen von Aufträgen und Überwachen des Trainingsfortschritts

Artikel
09/03/2024

Das Training des Machine Learning-Modells ist ein iterativer Prozess und erfordert umfangreiches Experimentieren. Mit der interaktiven Azure Machine Learning-Auftragsumgebung können wissenschaftliche Fachkräfte für Daten das Azure Machine Learning Python SDK, die Azure Machine Learning CLI oder das Azure Studio verwenden, um auf den Container zuzugreifen, in dem ihr Auftrag ausgeführt wird. Sobald auf den Auftragscontainer zugegriffen wird, können Benutzer Trainingsskripts durchlaufen, den Trainingsfortschritt überwachen oder den Auftrag remote debuggen, wie es normalerweise auf ihren lokalen Computern der Fall wäre. Mit Aufträgen kann über verschiedene Trainingsanwendungen wie JupyterLab, TensorBoard, VS Code oder über eine direkte Verbindung mit dem Auftragscontainer über SSH interagiert werden.

Interaktive Trainings werden für Azure Machine Learning-Computecluster und Kubernetes-Cluster mit Azure Arc-Unterstützung unterstützt.

Voraussetzungen

Sehen Sie sich die ersten Schritte beim Training in Azure Machine Learning an.
Weitere Informationen finden Sie unter diesem Link für VS Code zum Einrichten der Azure Machine Learning-Erweiterung.
Stellen Sie sicher, dass in Ihrer Auftragsumgebung die Pakete openssh-server und ipykernel ~=6.0 installiert sind (in allen von Azure Machine Learning kuratierten Trainingsumgebungen sind diese Pakete standardmäßig installiert).
Interaktive Anwendungen können nur in verteilten Trainingsausführungen aktiviert werden, in denen der Verteilungstyp „PyTorch“, „TensorFlow“ oder „MPI“ lautet. Ein benutzerdefiniertes verteiltes Trainingssetup (Konfigurieren von Training mit mehreren Knoten, ohne das oben genannte Verteilungsframework zu verwenden) wird derzeit nicht unterstützt.
Um SSH verwenden zu können, benötigen Sie ein SSH-Schlüsselpaar. Mit dem Befehl ssh-keygen -f "<filepath>" können Sie Dateien mit öffentlichen und privaten SSH-Schlüsseln generieren.

Interagieren mit Ihrem Auftragscontainer

Wenn Sie interaktive Anwendungen bei der Auftragserstellung angeben, können Sie eine direkte Verbindung mit dem Container auf dem Computeknoten herstellen, auf dem Ihr Auftrag ausgeführt wird. Sobald Sie Zugriff auf den Auftragscontainer haben, können Sie Ihren Auftrag in der gleichen Umgebung testen oder debuggen, in der er ausgeführt werden würde. Sie können auch VS Code für das Anfügen an den aktiven Prozess verwenden und so debuggen, wie Sie es lokal vornehmen würden.

Aktivieren während der Auftragsübermittlung

Erstellen Sie im Studio-Portal über den linken Navigationsbereich einen neuen Auftrag.
Wählen Sie Computecluster oder Angefügtes Compute (Kubernetes) als Computetyp und das Computeziel aus. Geben Sie anschließend an, wie viele Knoten Sie in Instance count benötigen.

Screenshot: Auswahl eines Computestandorts für einen Auftrag

Befolgen Sie den Assistenten, um die Umgebung auszuwählen, in der Sie den Auftrag starten möchten.
Fügen Sie in Schritt Trainingsskript Ihren Trainingscode (und Eingabe-/Ausgabedaten) hinzu, und verweisen Sie in Ihrem Befehl darauf, um sicherzustellen, dass er in Ihren Auftrag eingebunden ist.

Screenshot: Überprüfen eines Auftragsentwurfs und Abschluss der Erstellung

Sie können am Ende Ihres Befehls sleep <specific time> festlegen, um anzugeben, wie lange Sie die Computeressource reservieren möchten. Das Format ist wie folgt:

sleep 1s
sleep 1m
sleep 1h
sleep 1d

Sie können auch den Befehl sleep infinity verwenden, mit dem der Auftrag auf unbestimmte Zeit aktiv bleibt.

Hinweis

Wenn Sie sleep infinity verwenden, müssen Sie den Auftrag manuell abbrechen, um die Computeressource freizugeben (und die Abrechnung zu beenden).

Erweitern Sie in den Einstellungen für Compute die Option für Trainingsanwendungen. Wählen Sie mindestens eine Trainingsanwendung aus, die Sie für die Interaktion mit dem Auftrag verwenden möchten. Wenn Sie keine Anwendung auswählen, ist das Debuggen-Feature nicht verfügbar.

Screenshot: Auswählen einer Trainingsanwendung, die der Benutzer für einen Auftrag verwenden soll

Überprüfen und erstellen Sie den Auftrag.

Definieren Sie die interaktiven Dienste, die Sie für Ihren Auftrag verwenden möchten. Stellen Sie sicher, dass Sie your compute name durch Ihren eigenen Wert ersetzen. Wenn Sie Ihre eigene benutzerdefinierte Umgebung verwenden möchten, folgen Sie den Beispielen in diesem Tutorial, um eine benutzerdefinierte Umgebung zu erstellen.

Sie müssen die JobService-Klasse aus dem azure.ai.ml.entities-Paket importieren, um interaktive Dienste über das SDK zu konfigurieren.

command_job = command(...
    code="./src",  # local path where the code is stored
    command="python main.py", # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running
    environment="AzureML-tensorflow-2.7-ubuntu20.04-py38-cuda11-gpu@latest",
    compute="<name-of-compute>",
    services={
      "My_jupyterlab": JupyterLabJobService(
        nodes="all" # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
      ),
      "My_vscode": VsCodeJobService(
        nodes="all"
      ),
      "My_tensorboard": TensorBoardJobService(
        nodes="all",
        log_dir="output/tblogs"  # relative path of Tensorboard logs (same as in your training script)         
      ),
      "My_ssh": SshJobService(
        ssh_public_keys="<add-public-key>",
        nodes="all"  
      ),
    }
)

# submit the command
returned_job = ml_client.jobs.create_or_update(command_job)

Im Abschnitt services werden die Trainingsanwendungen angegeben, mit denen Sie interagieren möchten.

Sie können am Ende Ihres Befehls sleep <specific time> festlegen, um anzugeben, wie lange Sie die Computeressource reservieren möchten. Das Format ist wie folgt:

sleep 1s
sleep 1m
sleep 1h
sleep 1d

Sie können auch den Befehl sleep infinity verwenden, mit dem der Auftrag auf unbestimmte Zeit aktiv bleibt.

Hinweis

Wenn Sie sleep infinity verwenden, müssen Sie den Auftrag manuell abbrechen, um die Computeressource freizugeben (und die Abrechnung zu beenden).

Übermitteln Sie Ihren Trainingsauftrag. Weitere Informationen zum Trainieren mit dem Python SDK finden Sie in diesem Artikel.

Erstellen Sie einen YAML-Auftrag job.yaml mit dem Beispielinhalt. Stellen Sie sicher, dass Sie your compute name durch Ihren eigenen Wert ersetzen. Wenn Sie eine benutzerdefinierte Umgebung verwenden möchten, folgen Sie den Beispielen in diesem Tutorial, um eine benutzerdefinierte Umgebung zu erstellen.

code: src 
command: 
  python train.py 
  # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running.
environment: azureml:AzureML-tensorflow-2.4-ubuntu18.04-py37-cuda11-gpu:41
compute: azureml:<your compute name>
services:
    my_vs_code:
      type: vs_code
      nodes: all # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
    my_tensor_board:
      type: tensor_board
      log_dir: "output/tblogs" # relative path of Tensorboard logs (same as in your training script)
      nodes: all
    my_jupyter_lab:
      type: jupyter_lab
      nodes: all
    my_ssh:
      type: ssh
      ssh_public_keys: <paste the entire pub key content>
      nodes: all

Im Abschnitt services werden die Trainingsanwendungen angegeben, mit denen Sie interagieren möchten.

Sie können am Ende des Befehls sleep <specific time> festlegen, um anzugeben, wie lange Sie die Computeressource reservieren möchten. Das Format ist wie folgt:

sleep 1s
sleep 1m
sleep 1h
sleep 1d

Sie können auch den Befehl sleep infinity verwenden, mit dem der Auftrag auf unbestimmte Zeit aktiv bleibt.

Hinweis

Wenn Sie sleep infinity verwenden, müssen Sie den Auftrag manuell abbrechen, um die Computeressource freizugeben (und die Abrechnung zu beenden).

Führen Sie den Befehl az ml job create --file <path to your job yaml file> --workspace-name <your workspace name> --resource-group <your resource group name> --subscription <sub-id> aus, um Ihren Trainingsauftrag zu übermitteln. Weitere Informationen zum Ausführen eines Auftrags über CLI finden Sie in diesem Artikel.

Herstellen einer Verbindung mit Endpunkten

Um mit dem Auftrag, der gerade ausgeführt wird, interagieren zu können, klicken Sie auf der Auftragsdetailseite auf die Schaltfläche Debuggen und Überwachen.

Screenshot: Position des Bereichs „Debuggen und Überwachen“ für interaktive Aufträge

Wenn Sie im Bereich auf die Anwendungen klicken, wird eine neue Registerkarte für die Anwendungen geöffnet. Sie können nur auf die Anwendungen zugreifen, wenn sie sich im Status Wird ausgeführt befinden. Zudem ist nur der Auftragsbesitzer für den Zugriff auf die Anwendungen autorisiert. Wenn Sie auf mehreren Knoten trainieren, können Sie den bestimmten Knoten auswählen, mit dem Sie interagieren möchten.

Screenshot: Informationen zu interaktiven Aufträgen im rechten Bereich. Der Informationsinhalt variiert je nach Benutzerdaten.

Es kann einige Minuten dauern, bis der Auftrag und die während der Auftragserstellung angegebenen Trainingsanwendungen gestartet wurden.

Nachdem der Auftrag übermittelt wurde, können Sie ml_client.jobs.show_services("<job name>", <compute node index>) verwenden, um die interaktiven Dienstendpunkte anzuzeigen.
Um eine Verbindung über SSH mit dem Container herzustellen, in dem der Auftrag ausgeführt wird, führen Sie den Befehl az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key> aus. Befolgen Sie diesen Leitfaden, um die Azure Machine Learning CLI einzurichten.

Die Referenzdokumentation zum SDK finden Sie hier.

Sie können nur auf die Anwendungen zugreifen, wenn sie sich im Status Wird ausgeführt befinden. Zudem ist nur der Auftragsbesitzer für den Zugriff auf die Anwendungen autorisiert. Wenn Sie auf mehreren Knoten trainieren, können Sie den bestimmten Knoten auswählen, mit dem Sie interagieren möchten, indem Sie den Knotenindex übergeben.

Wenn der Auftrag ausgeführt wird, führen Sie den Befehl az ml job show-services --name <job name> --node-index <compute node index> aus, um die URL für die Anwendungen abzurufen. Die Endpunkt-URL wird in der Ausgabe unter services angezeigt. Für VS Code müssen Sie die angegebene URL kopieren und in Ihren Browser einfügen.
Um eine Verbindung über SSH mit dem Container herzustellen, in dem der Auftrag ausgeführt wird, führen Sie den Befehl az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key> aus.

Die Referenzdokumentation zu diesen Befehlen finden Sie hier.

Interagieren mit den Anwendungen

Wenn Sie Endpunkte auswählen, um mit Ihrem Auftrag zu interagieren, werden Sie zum Benutzercontainer unter Ihrem Arbeitsverzeichnis weitergeleitet, wo Sie auf Ihren Code, Ihre Eingaben, Ausgaben und Protokolle zugreifen können. Wenn beim Herstellen einer Verbindung mit den Anwendungen Probleme auftreten, finden Sie die interaktiven Funktions- und Anwendungsprotokolle in system_logs->interactive_capability unter der Registerkarte Ausgaben und Protokolle.

Screenshot: Speicherort des interaktiven Protokollbereichs für interaktive Aufträge

Sie können ein Terminal über Jupyter Lab öffnen und mit der Interaktion innerhalb des Auftragscontainers beginnen. Sie können Ihr Trainingsskript auch direkt mit Jupyter Lab durchlaufen.
Sie können auch mit dem Auftragscontainer in VS Code interagieren. Navigieren Sie hierher, um während der Auftragsübermittlung einen Debugger an einen Auftrag anzufügen und die Ausführung anzuhalten.

Hinweis

Private Link-fähige Arbeitsbereiche werden bei Interaktionen mit dem Auftragscontainer mit VS Code derzeit nicht unterstützt.
Wenn Sie Tensorflow-Ereignisse für Ihren Auftrag protokolliert haben, können Sie TensorBoard verwenden, um die Metriken zu überwachen, wenn Ihr Auftrag ausgeführt wird.

Beenden des Auftrags

Sobald Sie das interaktive Training abgeschlossen haben, können Sie zur Auftragsdetailseite wechseln, um den Auftrag abzubrechen, wodurch die Computeressource freigegeben wird. Alternativ können Sie az ml job cancel -n <your job name> in der CLI oder ml_client.job.cancel("<job name>") im SDK verwenden.

Screenshot: Option „Auftrag abbrechen“ für interaktive Aufträge und deren Position für die Benutzerauswahl

Anfügen eines Debuggers an einen Auftrag

Um einen Auftrag mit einem angefügten Debugger und bei angehaltener Ausführung zu übermitteln, können Sie den Befehl „debugpy“ und VS Code verwenden (debugpy muss in Ihrer Auftragsumgebung installiert sein).

Hinweis

Private Link-fähige Arbeitsbereiche werden derzeit nicht unterstützt, wenn ein Debugger an einen Auftrag in VS Code angefügt wird.

Verwenden Sie während der Auftragsübermittlung (entweder über die Benutzeroberfläche, die CLI oder das SDK) den Befehl „debugpy“, um Ihr Python-Skript auszuführen. Der folgende Screenshot zeigt z. B. einen Beispielbefehl, der „debugpy“ zum Anfügen des Debuggers für ein Tensorflow-Skript verwendet (tfevents.py kann durch den Namen Ihres Trainingsskripts ersetzt werden).

Screenshot: Konfiguration von „debugpy“ für interaktive Aufträge

Nachdem der Auftrag übermittelt wurde, stellen Sie eine Verbindung mit VS Code her, und wählen Sie den integrierten Debugger aus.
Verwenden Sie die Debugkonfiguration für „Remoteanfügung“, um an den übermittelten Auftrag anzufügen, und übergeben Sie den Pfad und Port, den Sie in Ihrem Befehl zur Auftragsübermittlung konfiguriert haben. Diese Informationen finden Sie auch auf der Seite mit den Auftragsdetails.
Legen Sie Breakpoints fest, und durchlaufen Sie die Auftragsausführung wie bei Ihrem Workflow für lokales Debuggen.

Hinweis

Wenn Sie „debugpy“ verwenden, um Ihren Auftrag zu starten, wird Ihr Auftrag nur ausgeführt, wenn Sie den Debugger in VS Code anfügen und das Skript ausführen. Wenn dies nicht geschieht, wird die Compute-Instanz reserviert, bis der Auftrag abgebrochen wird.

Nächste Schritte

Lernen Sie, wie und wo Sie Modelle bereitstellen können.

Freigeben über

Debuggen von Aufträgen und Überwachen des Trainingsfortschritts

Voraussetzungen

Interagieren mit Ihrem Auftragscontainer

Aktivieren während der Auftragsübermittlung

Herstellen einer Verbindung mit Endpunkten

Interagieren mit den Anwendungen

Beenden des Auftrags

Anfügen eines Debuggers an einen Auftrag

Nächste Schritte

Feedback

Zusätzliche Ressourcen