Ladění úloh a monitorování průběhu trénování

Článek
09/02/2024

Trénování modelu strojového učení je iterativní proces a vyžaduje významné experimentování. Díky interaktivnímu pracovnímu prostředí služby Azure Machine Learning můžou datoví vědci použít sadu Azure Machine Learning Python SDK, Azure Machine Learning CLI nebo Azure Studio pro přístup ke kontejneru, ve kterém je jejich úloha spuštěná. Po přístupu ke kontejneru úloh můžou uživatelé iterovat trénovací skripty, monitorovat průběh trénování nebo vzdáleně ladit úlohu, jako obvykle dělají na místních počítačích. Úlohy je možné interagovat prostřednictvím různých trénovacích aplikací, včetně JupyterLabu, TensorBoardu, VS Code nebo připojením ke kontejneru úloh přímo přes SSH.

Interaktivní trénování se podporuje ve výpočetních clusterech Azure Machine Learning a clusteru Kubernetes s podporou služby Azure Arc.

Požadavky

Přečtěte si , jak začít s trénováním ve službě Azure Machine Learning.
Další informace najdete v tomto odkazu pro VS Code pro nastavení rozšíření Azure Machine Learning.
Ujistěte se, že vaše prostředí úloh má openssh-server nainstalované balíčky a ipykernel ~=6.0 balíčky (ve výchozím nastavení jsou tyto balíčky nainstalované ve všech trénovacích prostředích služby Azure Machine Learning).
Interaktivní aplikace nejde povolit u distribuovaných trénovacích běhů, kde je typ distribuce cokoli jiného než PyTorch, TensorFlow nebo MPI. Nastavení vlastního distribuovaného trénování (konfigurace trénování s více uzly bez použití výše uvedených distribučních architektur) se v současné době nepodporuje.
Pokud chcete použít SSH, potřebujete pár klíčů SSH. Pomocí příkazu můžete ssh-keygen -f "<filepath>" vygenerovat pár veřejného a privátního klíče.

Interakce s kontejnerem úloh

Zadáním interaktivních aplikací při vytváření úlohy se můžete připojit přímo ke kontejneru na výpočetním uzlu, na kterém je vaše úloha spuštěná. Jakmile budete mít přístup k kontejneru úloh, můžete úlohu otestovat nebo ladit ve stejném prostředí, ve kterém by se spustila. VS Code můžete také použít k připojení ke spuštěnému procesu a ladění stejně jako v místním prostředí.

Povolení během odesílání úloh

Vytvořte novou úlohu z levého navigačního podokna na portálu studio.
Jako typ výpočetních prostředků zvolte Výpočetní cluster nebo Připojený výpočetní objekt (Kubernetes), zvolte cílový výpočetní objekt a určete, kolik uzlů potřebujeteInstance count.

Snímek obrazovky s výběrem výpočetního umístění pro úlohu

Postupujte podle průvodce a zvolte prostředí, které chcete spustit úlohu.
V kroku trénovacího skriptu přidejte trénovací kód (a vstupní/výstupní data) a v příkazu na něj odkazujte, abyste měli jistotu, že je připojený k vaší úloze.

Snímek obrazovky s kontrolou konceptu úlohy a dokončením vytváření

Na konec příkazu můžete sleep <specific time> zadat dobu, po kterou chcete výpočetní prostředek rezervovat. Formát je následující:

spánek 1s
spánek 1 min.
spánek 1h
1d spánku

Můžete také použít sleep infinity příkaz, který by zachoval úlohu naživu po neomezenou dobu.

Poznámka:

Pokud použijete sleep infinity, budete muset úlohu ručně zrušit, abyste mohli přejít k výpočetnímu prostředku (a zastavit fakturaci).

V nastavení výpočetních prostředků rozbalte možnost Pro trénovací aplikace. Vyberte aspoň jednu trénovací aplikaci, kterou chcete použít k interakci s úlohou. Pokud aplikaci nevyberete, funkce ladění nebude dostupná.

Snímek obrazovky s výběrem trénovací aplikace pro uživatele, který se má použít pro úlohu

Zkontrolujte a vytvořte úlohu.

Definujte interaktivní služby, které chcete pro svou úlohu použít. Nezapomeňte nahradit your compute name vlastní hodnotou. Pokud chcete použít vlastní prostředí, postupujte podle příkladů v tomto kurzu a vytvořte vlastní prostředí.

Abyste mohli konfigurovat interaktivní služby prostřednictvím sady SDK, musíte z balíčku importovat JobService třídu azure.ai.ml.entities .

command_job = command(...
    code="./src",  # local path where the code is stored
    command="python main.py", # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running
    environment="AzureML-tensorflow-2.7-ubuntu20.04-py38-cuda11-gpu@latest",
    compute="<name-of-compute>",
    services={
      "My_jupyterlab": JupyterLabJobService(
        nodes="all" # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
      ),
      "My_vscode": VsCodeJobService(
        nodes="all"
      ),
      "My_tensorboard": TensorBoardJobService(
        nodes="all",
        log_dir="output/tblogs"  # relative path of Tensorboard logs (same as in your training script)         
      ),
      "My_ssh": SshJobService(
        ssh_public_keys="<add-public-key>",
        nodes="all"  
      ),
    }
)

# submit the command
returned_job = ml_client.jobs.create_or_update(command_job)

Oddíl services určuje trénovací aplikace, se kterými chcete pracovat.

Na konec příkazu můžete sleep <specific time> zadat dobu, po kterou chcete výpočetní prostředek rezervovat. Formát je následující:

spánek 1s
spánek 1 min.
spánek 1h
1d spánku

Můžete také použít sleep infinity příkaz, který by zachoval úlohu naživu po neomezenou dobu.

Poznámka:

Pokud použijete sleep infinity, budete muset úlohu ručně zrušit, abyste mohli přejít k výpočetnímu prostředku (a zastavit fakturaci).

Odešlete trénovací úlohu. Další podrobnosti o trénování pomocí sady Python SDK najdete v tomto článku.

Vytvořte yaml job.yaml úlohy pomocí ukázkového obsahu. Nezapomeňte nahradit your compute name vlastní hodnotou. Pokud chcete použít vlastní prostředí, postupujte podle příkladů v tomto kurzu a vytvořte vlastní prostředí.

code: src 
command: 
  python train.py 
  # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running.
environment: azureml:AzureML-tensorflow-2.4-ubuntu18.04-py37-cuda11-gpu:41
compute: azureml:<your compute name>
services:
    my_vs_code:
      type: vs_code
      nodes: all # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
    my_tensor_board:
      type: tensor_board
      log_dir: "output/tblogs" # relative path of Tensorboard logs (same as in your training script)
      nodes: all
    my_jupyter_lab:
      type: jupyter_lab
      nodes: all
    my_ssh:
      type: ssh
      ssh_public_keys: <paste the entire pub key content>
      nodes: all

Oddíl services určuje trénovací aplikace, se kterými chcete pracovat.

Na konec příkazu můžete sleep <specific time> zadat dobu, po kterou chcete rezervovat výpočetní prostředek. Formát je následující:

spánek 1s
spánek 1 min.
spánek 1h
1d spánku

Můžete také použít sleep infinity příkaz, který by zachoval úlohu naživu po neomezenou dobu.

Poznámka:

Pokud použijete sleep infinity, budete muset úlohu ručně zrušit, abyste mohli přejít k výpočetnímu prostředku (a zastavit fakturaci).

Spuštěním příkazu az ml job create --file <path to your job yaml file> --workspace-name <your workspace name> --resource-group <your resource group name> --subscription <sub-id> odešlete trénovací úlohu. Další podrobnosti o spuštění úlohy prostřednictvím rozhraní příkazového řádku najdete v tomto článku.

Připojení ke koncovým bodům

Pokud chcete pracovat se spuštěnou úlohou, vyberte tlačítko Ladit a monitorovat na stránce podrobností úlohy.

Snímek obrazovky s umístěním interaktivních úloh pro ladění a monitorování panelu

Kliknutím na aplikace na panelu otevřete novou kartu pro aplikace. K aplikacím můžete přistupovat jenom v případech, kdy jsou ve stavu Spuštěno a k přístupu k aplikacím má oprávnění pouze vlastník úlohy. Pokud trénujete na více uzlech, můžete vybrat konkrétní uzel, se kterým chcete pracovat.

Snímek obrazovky s informacemi o pravém panelu interaktivních úloh Obsah informací se liší v závislosti na datech uživatele.

Spuštění úlohy a trénovacích aplikací zadaných během vytváření úlohy může trvat několik minut.

Po odeslání úlohy můžete použít ml_client.jobs.show_services("<job name>", <compute node index>) k zobrazení interaktivních koncových bodů služby.
Pokud se chcete připojit přes SSH ke kontejneru, ve kterém je úloha spuštěná, spusťte příkaz az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key>. Pokud chcete nastavit rozhraní příkazového řádku služby Azure Machine Learning, postupujte podle tohoto průvodce.

Referenční dokumentaci k sadě SDK najdete tady.

K aplikacím můžete přistupovat jenom v případech, kdy jsou ve stavu Spuštěno a k přístupu k aplikacím má oprávnění pouze vlastník úlohy. Pokud trénujete na více uzlech, můžete vybrat konkrétní uzel, se kterým chcete pracovat, předáním indexu uzlu.

Když je úloha spuštěná, spusťte příkaz az ml job show-services --name <job name> --node-index <compute node index> , který načítá adresu URL aplikacím. Adresa URL koncového bodu se zobrazí services ve výstupu. Pro VS Code musíte zkopírovat a vložit zadanou adresu URL v prohlížeči.
Pokud se chcete připojit přes SSH ke kontejneru, ve kterém je úloha spuštěná, spusťte příkaz az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key>.

Referenční dokumentaci k těmto příkazům najdete tady.

Interakce s aplikacemi

Když vyberete koncové body pro interakci při práci, přejdete do kontejneru uživatelů v pracovním adresáři, kde máte přístup k kódu, vstupům, výstupům a protokolům. Pokud při připojování k aplikacím narazíte na nějaké problémy, najdete interaktivní možnosti a protokoly aplikací z system_logs-interactive_capability> na kartě Výstupy a protokoly.

Snímek obrazovky s umístěním panelu interaktivních protokolů interaktivních úloh

Terminál můžete otevřít z Prostředí Jupyter Lab a začít interagovat v rámci kontejneru úloh. Pomocí jupyter Labu můžete také přímo iterovat trénovací skript.
Můžete také pracovat s kontejnerem úloh v nástroji VS Code. Pokud chcete k úloze připojit ladicí program během odesílání úlohy a pozastavit provádění, přejděte sem.

Poznámka:

Pracovní prostory s podporou privátního propojení se v současné době nepodporují při interakci s kontejnerem úloh s VS Code.
Pokud jste zaprotokolovali události tensorflow pro úlohu, můžete pomocí TensorBoardu monitorovat metriky při spuštění úlohy.

Ukončit úlohu

Po dokončení interaktivního trénování můžete také přejít na stránku podrobností úlohy a zrušit tak úlohu, která uvolní výpočetní prostředek. Alternativně můžete použít az ml job cancel -n <your job name> v rozhraní příkazového řádku nebo ml_client.job.cancel("<job name>") v sadě SDK.

Snímek obrazovky s možností zrušení úlohy interaktivních úloh a umístěním pro výběr uživatele

Připojení ladicího programu k úloze

Pokud chcete odeslat úlohu s připojeným ladicím programem a pozastaveným spuštěním, můžete použít ladicí program a VS Code (debugpy musí být nainstalován ve vašem prostředí úlohy).

Poznámka:

Pracovní prostory s podporou privátního propojení se v současné době nepodporují při připojování ladicího programu k úloze ve VS Code.

Během odesílání úloh (prostřednictvím uživatelského rozhraní, rozhraní příkazového řádku nebo sady SDK) pomocí příkazu debugpy spusťte skript Pythonu. Například následující snímek obrazovky ukazuje ukázkový příkaz, který používá debugpy k připojení ladicího programu pro skript tensorflow (tfevents.py lze nahradit názvem trénovacího skriptu).

Snímek obrazovky s konfigurací interaktivních úloh ladění

Po odeslání úlohy se připojte ke VS Code a vyberte integrovaný ladicí program.
Pomocí konfigurace ladění Vzdálené připojení se připojte k odeslané úloze a předejte cestu a port, který jste nakonfigurovali v příkazu pro odeslání úlohy. Tyto informace najdete také na stránce podrobností úlohy.
Nastavte zarážky a projděte provádění úlohy stejně jako v místním pracovním postupu ladění.

Poznámka:

Pokud ke spuštění úlohy použijete debugpy, úloha se nespustí , pokud v editoru VS Code nepřipojujete ladicí program a skript spustíte. Pokud to neukončíte, výpočetní prostředky budou rezervovány, dokud se úloha nezruší.

Další kroky

Přečtěte si další informace o tom, jak a kde nasadit model.

Sdílet prostřednictvím

Ladění úloh a monitorování průběhu trénování

Požadavky

Interakce s kontejnerem úloh

Povolení během odesílání úloh

Připojení ke koncovým bodům

Interakce s aplikacemi

Ukončit úlohu

Připojení ladicího programu k úloze

Další kroky

Váš názor

Další materiály