針對 Azure Stack Edge Pro GPU 上 GPU VM 的 GPU 延伸模組問題進行疑難排解
適用於:Azure Stack Edge Pro - GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
本文提供的指導方針,可協助您解決在 Azure Stack Edge Pro GPU 裝置上的 GPU VM 安裝 GPU 延伸模組失敗的最常見問題。
如需安裝步驟,請參閱安裝 GPU 延伸模組。
在 2205 以下的版本中,Linux GPU 延伸模組安裝舊的簽署金鑰:簽章和/或必要金鑰遺失
錯誤描述:Linux GPU 延伸模組安裝舊的簽署金鑰,造成無法下載必要的 GPU 驅動程式。 在此情況下,您會在 Linux VM 的 syslog 中看到下列錯誤:
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
建議的解決方案:您有兩個選項可減輕此問題:
選項 1:將 Azure Stack Edge 2205 更新套用至您的裝置。
選項 2:建立 NCasT4_v3-series 大小的 GPU 虛擬機器之後,請先手動安裝新的簽署金鑰再安裝延伸模組,然後使用更新 CUDA Linux GPG 存放庫金鑰 | NVIDIA 技術部落格中的步驟設定必要的簽署金鑰。
以下是在 Ubuntu 1804 虛擬機器上安裝簽署金鑰的範例:
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
無法在 Windows 2016 VHD 上安裝 GPU 延伸模組
錯誤描述:這是 2205 以下版本的已知問題。 GPU 延伸模組需要 TLS 1.2。 在此情況下,您可能會看到下列錯誤訊息:
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
其他詳細資料:
- 檢查來賓記錄檔是否有相關錯誤。 若要收集來賓記錄,請參閱收集 Azure Stack Edge Pro GPU 裝置上的 VM 來賓記錄。
- 在 Linux VM 上,查詢
/var/log/waagent.log
或/var/log/azure/nvidia-vmext-status
。 - 在 Windows VM 上,在
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
中尋找錯誤狀態。 - 檢閱
C:\WindowsAzure\Logs\WaAppAgent.txt
中的完整執行記錄。
如果在套件下載期間安裝失敗,該錯誤表示 VM 無法存取公用網路來下載驅動程式。
建議的解決方案:使用下列步驟在 Windows 2016 VM 上啟用 TLS 1.2,然後部署 GPU 延伸模組。
在 VM 之中執行下列命令以啟用 TLS 1.2:
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
部署範本
addGPUextensiontoVM.json
,即可在現有的 VM 上安裝延伸模組。 您可以手動安裝延伸模組,也可以從 Azure 入口網站安裝延伸模組。- 若要手動安裝延伸模組,請參閱在適用於 Azure Stack Edge Pro GPU 裝置的 VM 上安裝 GPU 延伸模組
- 若要使用 Azure 入口網站安裝範本,請參閱在 Azure Stack Edge Pro GPU 裝置上部署 GPU VM。
注意
延伸模組部署是長時間執行的作業,大約需要 10 分鐘才能完成。
在 RHEL 7 上手動安裝 Nvidia 驅動程式
錯誤描述:在 RHEL 7 VM 上安裝 GPU 延伸模組時,安裝可能會因為憑證輪替問題和不相容的驅動程式版本而失敗。
建議的解決方案:在此情況下,您有兩個選項:
選項 1:解決憑證輪替問題,然後安裝低於 510 版的 Nvidia 驅動程式。
若要解決憑證輪替問題,請執行下列命令:
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
安裝低於 510 版的 Nvidia 驅動程式。
選項 2:部署 GPU 延伸模組。 部署 ARM 延伸模組時,請使用下列設定:
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
VM 大小不是 GPU VM 大小
錯誤描述:GPU VM 必須是 Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3 大小。 如果使用任何其他 VM 大小,GPU 延伸模組將無法連結。
建議的解決方案:建立具有 Standard_NC4as_T4_v3 或 Standard_NC8as_T4_v3 VM 大小的 VM。 如需詳細資訊,請參閱 GPU VM 支援的 VM 大小。 如需指定大小的相關資訊,請參閱建立 GPU VM。
不支援映像 OS
錯誤描述:GPU 延伸模組不支援安裝在 VM 映像上的作業系統。
建議的解決方案:準備 GPU 延伸模組支援其作業系統的新 VM 映像。
如需支援的作業系統清單,請參閱 GPU VM 支援的 OS 和 GPU 驅動程式。
如需 GPU VM 的映像準備需求,請參閱建立 GPU VM。
延伸模組參數不正確
錯誤描述:在 Linux VM 上部署 GPU 延伸模組時,使用了不正確的延伸模組設定。
建議的解決方案:在部署 GPU 延伸模組之前,請先編輯參數檔案。 如需詳細資訊,請參閱安裝 GPU 延伸模組。
下載套件時 VM 延伸模組安裝失敗
錯誤描述:延伸模組佈建在延伸模組安裝期間或處於「啟用」狀態時失敗。
檢查來賓記錄檔是否有相關錯誤。 若要收集來賓記錄,請參閱收集 Azure Stack Edge Pro 上的 VM 來賓記錄。
在 Linux VM 上:
- 查詢
/var/log/waagent.log
或/var/log/azure/nvidia-vmext-status
。
在 Windows VM 上:
- 了解
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
中的錯誤狀態。 - 檢閱完整執行記錄:
C:\WindowsAzure\Logs\WaAppAgent.txt
。
如果在套件下載期間安裝失敗,該錯誤表示 VM 無法存取公用網路來下載驅動程式。
- 查詢
建議的解決方案:
在連線到網際網路的連接埠上啟用計算。 如需指導,請參閱建立 GPU VM。
在入口網站中停止 VM 以解除配置 VM。 若要停止 VM,請移至 [虛擬機器]>[概觀],然後選取 VM。 然後,在 [VM 屬性] 頁面上,選取 [停止]。
建立新的 VM。
VM 延伸模組因錯誤 dpkg is used/yum lock is used
而失敗 (Linux VM)
錯誤描述:Linux VM 上的 GPU 延伸模組部署失敗,因為另一個流程正在使用 dpkg
,或另一個流程已建立 yum lock
。
建議的解決方案:若要解決此問題,請執行下列步驟:
若要找出套用鎖定的流程,請搜尋 \var\log\azure\nvidia-vmext-status 記錄檔中是否有「dpkg 正由另一個流程使用」或「另一個應用程式正持有
yum lock
」之類的錯誤。等候流程完成,或結束流程。
再次安裝 GPU 延伸模組。
如果延伸模組部署再次失敗,請建立新的 VM,並確定在安裝 GPU 延伸模組之前沒有鎖定。