針對 Azure Stack Edge Pro GPU 上 GPU VM 的 GPU 延伸模組問題進行疑難排解

發行項
2024-05-25

適用於： [是] 表示 Pro - GPU SKU Azure Stack Edge Pro - GPU 是，適用於 Pro 2 SKU Azure Stack Edge Pro 2 是，適用於 Pro R SKU Azure Stack Edge Pro R

本文提供的指導方針，可協助您解決在 Azure Stack Edge Pro GPU 裝置上的 GPU VM 安裝 GPU 延伸模組失敗的最常見問題。

如需安裝步驟，請參閱安裝 GPU 延伸模組。

在 2205 以下的版本中，Linux GPU 延伸模組安裝舊的簽署金鑰：簽章和/或必要金鑰遺失

錯誤描述：Linux GPU 延伸模組安裝舊的簽署金鑰，造成無法下載必要的 GPU 驅動程式。在此情況下，您會在 Linux VM 的 syslog 中看到下列錯誤：

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel

建議的解決方案：您有兩個選項可減輕此問題：

選項 1：將 Azure Stack Edge 2205 更新套用至您的裝置。
選項 2：建立 NCasT4_v3-series 大小的 GPU 虛擬機器之後，請先手動安裝新的簽署金鑰再安裝延伸模組，然後使用更新 CUDA Linux GPG 存放庫金鑰 | NVIDIA 技術部落格中的步驟設定必要的簽署金鑰。

以下是在 Ubuntu 1804 虛擬機器上安裝簽署金鑰的範例：
```
$ sudo apt-key adv --fetch-
keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
```

無法在 Windows 2016 VHD 上安裝 GPU 延伸模組

錯誤描述：這是 2205 以下版本的已知問題。 GPU 延伸模組需要 TLS 1.2。在此情況下，您可能會看到下列錯誤訊息：

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

其他詳細資料：

檢查來賓記錄檔是否有相關錯誤。若要收集來賓記錄，請參閱收集 Azure Stack Edge Pro GPU 裝置上的 VM 來賓記錄。
在 Linux VM 上，查詢 /var/log/waagent.log 或 /var/log/azure/nvidia-vmext-status。
在 Windows VM 上，在 C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status 中尋找錯誤狀態。
檢閱 C:\WindowsAzure\Logs\WaAppAgent.txt 中的完整執行記錄。

如果在套件下載期間安裝失敗，該錯誤表示 VM 無法存取公用網路來下載驅動程式。

建議的解決方案：使用下列步驟在 Windows 2016 VM 上啟用 TLS 1.2，然後部署 GPU 延伸模組。

在 VM 之中執行下列命令以啟用 TLS 1.2：

sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1

部署範本 addGPUextensiontoVM.json，即可在現有的 VM 上安裝延伸模組。您可以手動安裝延伸模組，也可以從 Azure 入口網站安裝延伸模組。
- 若要手動安裝延伸模組，請參閱在適用於 Azure Stack Edge Pro GPU 裝置的 VM 上安裝 GPU 延伸模組
- 若要使用 Azure 入口網站安裝範本，請參閱在 Azure Stack Edge Pro GPU 裝置上部署 GPU VM。
注意

延伸模組部署是長時間執行的作業，大約需要 10 分鐘才能完成。

在 RHEL 7 上手動安裝 NVIDIA 驅動程式

錯誤描述：在 RHEL 7 VM 上安裝 GPU 延伸模組時，安裝可能會因為憑證輪替問題和不相容的驅動程式版本而失敗。

建議的解決方案：在此情況下，您有兩個選項：

選項 1： 解決憑證輪替問題，然後安裝低於 510 版的 NVIDIA 驅動程式。
1. 若要解決憑證輪替問題，請執行下列命令：
```
$ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
```
2. 安裝低於 510 版的 NVIDIA 驅動程式。

選項 2：部署 GPU 延伸模組。部署 ARM 延伸模組時，請使用下列設定：

settings": { 
"isCustomInstall": true, 
"InstallMethod": 0, 
"DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
"DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
"LIS_URL": "  https://aka.ms/lis", 
"LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
}

VM 大小不是 GPU VM 大小

錯誤描述：GPU VM 必須是 Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3 大小。如果使用任何其他 VM 大小，GPU 延伸模組將無法連結。

建議的解決方案：建立具有 Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3 VM 大小的 VM。如需詳細資訊，請參閱 GPU VM 支援的 VM 大小。如需指定大小的相關資訊，請參閱建立 GPU VM。

不支援映像 OS

錯誤描述：GPU 延伸模組不支援安裝在 VM 映像上的作業系統。

建議的解決方案：準備 GPU 延伸模組支援其作業系統的新 VM 映像。

如需支援的作業系統清單，請參閱 GPU VM 支援的 OS 和 GPU 驅動程式。
如需 GPU VM 的映像準備需求，請參閱建立 GPU VM。

延伸模組參數不正確

錯誤描述：在 Linux VM 上部署 GPU 延伸模組時，使用了不正確的延伸模組設定。

建議的解決方案：在部署 GPU 延伸模組之前，請先編輯參數檔案。如需詳細資訊，請參閱安裝 GPU 延伸模組。

下載套件時 VM 延伸模組安裝失敗

錯誤描述：延伸模組佈建在延伸模組安裝期間或處於「啟用」狀態時失敗。

檢查來賓記錄檔是否有相關錯誤。若要收集來賓記錄，請參閱收集 Azure Stack Edge Pro 上的 VM 來賓記錄。

在 Linux VM 上：
- 查詢 /var/log/waagent.log 或 /var/log/azure/nvidia-vmext-status。
在 Windows VM 上：
- 了解 C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status 中的錯誤狀態。
- 檢閱完整執行記錄：C:\WindowsAzure\Logs\WaAppAgent.txt。
如果在套件下載期間安裝失敗，該錯誤表示 VM 無法存取公用網路來下載驅動程式。

建議的解決方案：

在連線到網際網路的連接埠上啟用計算。如需指導，請參閱建立 GPU VM。
在入口網站中停止 VM 以解除配置 VM。若要停止 VM，請移至 [虛擬機器]>[概觀]，然後選取 VM。然後，在 [VM 屬性] 頁面上，選取 [停止]。
建立新的 VM。

VM 延伸模組因錯誤 `dpkg is used/yum lock is used` 而失敗 (Linux VM)

錯誤描述：Linux VM 上的 GPU 延伸模組部署失敗，因為另一個流程正在使用 dpkg，或另一個流程已建立 yum lock。

建議的解決方案：若要解決此問題，請執行下列步驟：

若要找出套用鎖定的流程，請搜尋 \var\log\azure\nvidia-vmext-status 記錄檔中是否有「dpkg 正由另一個流程使用」或「另一個應用程式正持有 yum lock」之類的錯誤。
等候流程完成，或結束流程。
再次安裝 GPU 延伸模組。
如果延伸模組部署再次失敗，請建立新的 VM，並確定在安裝 GPU 延伸模組之前沒有鎖定。

下一步

收集來賓記錄，並建立支援套件

共用方式為