偵錯作業並監視定型進度

發行項
10/16/2024

機器學習模型定型是反覆執行的流程，而且需要大量實驗。透過 Azure Machine Learning 互動式作業體驗，資料科學家可以使用 Azure Machine Learning Python SDK、Azure Machine Learning CLI 或 Azure Studio 來存取其作業執行所在的容器。存取作業容器之後，使用者可以逐一查看定型指令碼、監視定型進度，或是從遠端偵錯作業，就像通常在本機電腦上執行的動作一樣。使用者可以透過包括 JupyterLab、TensorBoard 和 VS Code 在內的不同定型應用程式與作業進行互動，或是透過 SSH 直接連線至作業容器。

Azure Machine Learning 計算叢集和已啟用 Azure Arc 的 Kubernetes 叢集支援互動式定型。

必要條件

請檢閱開始使用 Azure Machine Learning 的定型。
如需詳細資訊，請參閱 VS Code 的此連結，以設定 Azure Machine Learning 擴充。
請確定您的作業環境已安裝 openssh-server 和 ipykernel ~=6.0 套件 (所有 Azure Machine Learning 的策劃定型環境都會預設安裝這些套件)。
分散式定型執行無法啟用互動式應用程式，其中散發類型不是 PyTorch、TensorFlow 或 MPI。目前不支援自訂的分散式定型設定 (未使用上述分散式架構設定多節點定型)。
若要使用 SSH，您需要 SSH 金鑰組。您可以使用 ssh-keygen -f "<filepath>" 命令來產生公開和私密金鑰組。

與您的作業容器互動

藉由在作業建立時指定互動式應用程式，您可以直接連線至執行作業所在計算節點上的容器。一旦您能夠存取作業容器，就可以在與執行作業完全的相同環境中測試或偵錯作業。您也可以使用 VS Code 附加至執行中的程序並進行偵錯，就像在本機執行的動作一樣。

在作業提交期間啟用

在 Studio 入口網站左側的瀏覽窗格中建立新的作業。
選擇 [計算叢集] 或 [附加計算] (Kube) 作為計算類型、選擇計算目標，然後指定您在 Instance count 中所需的節點數目。

選取作業的計算位置螢幕擷取畫面。

遵循精靈以選擇您想要啟動作業的環境。
在 [訓練指令碼] 步驟中新增訓練程式碼 (及輸入/輸出資料)，並在您的命令中加以參考，以確保該訓練程式碼已掛接至您的作業。

檢閱作業草稿並完成建立的螢幕擷取畫面。

您可以將 sleep <specific time> 放在命令的結尾處，指定您想要保留計算資源的時間量。遵循的格式為：

sleep 1s
sleep 1m
sleep 1h
sleep 1d

您也可以使用會讓作業無限期保持運作的 sleep infinity 的命令。

注意

如果您使用 sleep infinity，則必須手動取消作業，才能釋出計算資源 (以及停止計費)。

在 [計算] 設定中，展開 [訓練應用程式] 選項。選取至少一個您想要用來與作業互動的定型應用程式。如果您未選取應用程式，將無法使用偵錯功能。

選取使用者可用於作業的訓練應用程式螢幕擷取畫面。

檢閱並建立作業。

定義您要用於作業的互動式服務。請確保將 your compute name 取代為您自己的值。如果您想要使用自己的自訂環境，請遵循此教學課程中的範例來建立自訂環境。

您必須從 azure.ai.ml.entities 套件匯入 JobService 類別，才能透過 SDK 設定互動式服務。

command_job = command(...
    code="./src",  # local path where the code is stored
    command="python main.py", # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running
    environment="AzureML-tensorflow-2.7-ubuntu20.04-py38-cuda11-gpu@latest",
    compute="<name-of-compute>",
    services={
      "My_jupyterlab": JupyterLabJobService(
        nodes="all" # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
      ),
      "My_vscode": VsCodeJobService(
        nodes="all"
      ),
      "My_tensorboard": TensorBoardJobService(
        nodes="all",
        log_dir="output/tblogs"  # relative path of Tensorboard logs (same as in your training script)         
      ),
      "My_ssh": SshJobService(
        ssh_public_keys="<add-public-key>",
        nodes="all"  
      ),
    }
)

# submit the command
returned_job = ml_client.jobs.create_or_update(command_job)

services 區段指定您想要與其互動的定型應用程式。

您可以將 sleep <specific time> 放在命令的結尾處，指定您想要保留計算資源的時間量。遵循的格式為：

sleep 1s
sleep 1m
sleep 1h
sleep 1d

您也可以使用會讓作業無限期保持運作的 sleep infinity 的命令。

注意

如果您使用 sleep infinity，則必須手動取消作業，才能釋出計算資源 (以及停止計費)。

提交您的定型作業。如需如何使用 Python SDK 進行定型的詳細資訊，請參閱這篇文章。

使用範例內容來建立作業 YAML job.yaml。請確保將 your compute name 取代為您自己的值。如果您想要使用自訂環境，請遵循此教學課程中的範例來建立自訂環境。

code: src 
command: 
  python train.py 
  # you can add a command like "sleep 1h" to reserve the compute resource is reserved after the script finishes running.
environment: azureml:AzureML-tensorflow-2.4-ubuntu18.04-py37-cuda11-gpu:41
compute: azureml:<your compute name>
services:
    my_vs_code:
      type: vs_code
      nodes: all # For distributed jobs, use the `nodes` property to pick which node you want to enable interactive services on. If `nodes` are not selected, by default, interactive applications are only enabled on the head node. Values are "all", or compute node index (for ex. "0", "1" etc.)
    my_tensor_board:
      type: tensor_board
      log_dir: "output/tblogs" # relative path of Tensorboard logs (same as in your training script)
      nodes: all
    my_jupyter_lab:
      type: jupyter_lab
      nodes: all
    my_ssh:
      type: ssh
      ssh_public_keys: <paste the entire pub key content>
      nodes: all

services 區段指定您想要與其互動的定型應用程式。

您可以將 sleep <specific time> 放在命令的結尾處，指定您想要保留計算資源的時間量。遵循的格式為：

sleep 1s
sleep 1m
sleep 1h
sleep 1d

您也可以使用會讓作業無限期保持運作的 sleep infinity 的命令。

注意

如果您使用 sleep infinity，則必須手動取消作業，才能釋出計算資源 (以及停止計費)。

執行命令 az ml job create --file <path to your job yaml file> --workspace-name <your workspace name> --resource-group <your resource group name> --subscription <sub-id> 以提交您的訓練作業。如需透過 CLI 執行作業的詳細資訊，請參閱這篇文章。

連線至端點

若要與執行中的作業互動，請選取作業詳細資料頁面上的 [偵錯及監視] 按鈕。

互動式作業的螢幕擷取畫面：偵錯及監視面板的位置。

按一下面板中的應用程式會開啟應用程式的新索引標籤。您只能在應用程式處於 [執行中] 狀態時才能存取應用程式，而且只有「作業擁有者」有權存取應用程式。如果您要在多個節點上定型，您可以挑選想要與其互動的特定節點。

互動式作業右側面板資訊的螢幕擷取畫面。信息內容會根據使用者的資料而有所不同。

啟動作業及建立作業期間指定的定型應用程式可能需要幾分鐘的時間。

提交作業之後，您可以使用 ml_client.jobs.show_services("<job name>", <compute node index>) 來檢視互動式服務端點。
若要透過 SSH 連線至執行作業的容器，請執行命令 az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key>。若要設定 Azure Machine Learning CLI，請遵循此指南。

您可以在這裡找到 SDK 的參考文件。

您只能在應用程式處於 [執行中] 狀態時才能存取應用程式，而且只有「作業擁有者」有權存取應用程式。如果您要在多個節點上定型，您可以傳入節點索引，以挑選您想要與其互動的特定節點。

當作業處於 [執行中]，請執行命令 az ml job show-services --name <job name> --node-index <compute node index> 以取得應用程式的 URL。端點 URL 會顯示在輸出中的 services 底下。若是 VS Code，您必須複製所提供的 URL 並在瀏覽器中貼上。
若要透過 SSH 連線至執行作業的容器，請執行命令 az ml job connect-ssh --name <job-name> --node-index <compute node index> --private-key-file-path <path to private key>。

您可以在這裡找到這些命令的參考文件。

與應用程式互動

選取端點以與作業互動時，系統會將您帶往工作目錄下的使用者容器，您可以在其中存取程式碼、輸入、輸出和記錄。如果您在連線至應用程式時遇到任何問題，您可以在 [輸出 + 記錄] 索引標籤下的 [system_logs] -> [interactive_capability] 找到互動式功能和應用程式記錄。

互動式作業的螢幕擷取畫面：互動式記錄面板的位置。

您可以從 Jupyter Lab 開啟終端機，並開始在作業容器內互動。您也可以使用 Jupyter Lab 直接逐一查看定型指令碼。
您也可以在 VS Code 中與作業容器互動。若要在作業提交期間將偵錯工具附加至作業並暫停執行，請瀏覽此處。

注意

使用 VS Code 與作業容器互動時，目前不支援啟用私人連結的工作區。
如果您已記錄作業的 Tensorflow 事件，您可以使用 TensorBoard 來監視作業執行時的計量。