Azure Stack Edge Pro GPU 上の GPU VM 向け GPU 拡張機能に関する問題のトラブルシューティング
適用対象: Azure Stack Edge Pro - GPUAzure Stack Edge Pro 2Azure Stack Edge Pro R
この記事では、GPU VM への GPU 拡張機能のインストールが Azure Stack Edge Pro GPU デバイスで失敗する原因となる最も一般的な問題を解決するためのガイダンスを提供します。
インストール手順については、GPU 拡張機能のインストールに関するページを参照してください。
2205 より前のバージョンでは、Linux GPU 拡張機能によって古い署名キーがインストールされる: 署名キーまたは必須キーがない
エラーの説明: Linux GPU 拡張機能では、古い署名キーがインストールされるため、必要な GPU ドライバーがダウンロードできなくなります。 この場合、Linux VM の syslog に次のエラーが表示されます。
/var/log/syslog and /var/log/waagent.log
May 5 06:04:53 gpuvm12 kernel: [ 833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel
推奨される解決方法: この問題を回避するには、次の 2 つのオプションがあります。
オプション 1: デバイスに Azure Stack Edge 2205 更新プログラムを適用します。
オプション 2: NCasT4_v3 シリーズのサイズの GPU 仮想マシンを作成した後、拡張機能をインストールする前に新しい署名キーを手動でインストールし、「CUDA Linux GPG リポジトリ キーの更新 | NVIDIA テクニカル ブログ」の手順を使用して必要な署名キーを設定します。
Ubuntu 1804 仮想マシンに署名キーをインストールする例を次に示します。
$ sudo apt-key adv --fetch- keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub
Windows 2016 VHD に GPU 拡張機能をインストールできない
エラーの説明: これは、2205 より前のバージョンの既知の問題です。 GPU 拡張機能には TLS 1.2 が必要です。 この場合、次のようなエラー メッセージが表示されることがあります。
Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!
追加詳細:
- ゲスト ログで、関連するエラーを確認します。 ゲスト ログを収集するには、「Azure Stack Edge Pro GPU デバイスで VM ゲスト ログを収集する」を参照してください。
- Linux VM で、
/var/log/waagent.log
または/var/log/azure/nvidia-vmext-status
を探します。 - Windows VM で、
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
のエラーの状態を見つけます。 C:\WindowsAzure\Logs\WaAppAgent.txt
の完全な実行ログを確認します。
パッケージのダウンロード中にインストールが失敗した場合、そのエラーは、VM でパブリック ネットワークにアクセスしてドライバーをダウンロードできなかったことを示します。
推奨される解決方法: 次の手順を使用して、Windows 2016 VM で TLS 1.2 を有効にしてから、GPU 拡張機能をデプロイします。
VM 内で次のコマンドを実行して、TLS 1.2 を有効にします。
sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
テンプレート
addGPUextensiontoVM.json
をデプロイして、既存の VM に拡張機能をインストールします。 拡張機能は手動でインストールすることも、Azure portal からインストールすることもできます。- 拡張機能を手動でインストールするには、「Azure Stack Edge Pro GPU デバイスの VM に GPU 拡張機能をインストールする」を参照してください。
- Azure portal を使用してテンプレートをインストールするには、「Azure Stack Edge Pro GPU デバイスに GPU VM をデプロイする」を参照してください。
Note
拡張機能のデプロイは長時間実行されるジョブであり、完了するまでに約 10 分かかります。
RHEL 7 に Nvidia ドライバーを手動でインストールする
エラーの説明: RHEL 7 VM に GPU 拡張機能をインストールすると、証明書ローテーションの問題と互換性のないドライバー バージョンが原因でインストールが失敗する可能性があります。
推奨される解決方法: この場合、次の 2 つのオプションがあります。
オプション 1: 証明書ローテーションの問題を解決してから、バージョン 510 より前の Nvidia ドライバーをインストールします。
証明書ローテーションの問題を解決するには、次のコマンドを実行します。
$ sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
バージョン 510 より前の Nvidia ドライバーをインストールします。
オプション 2: GPU 拡張機能をデプロイします。 ARM 拡張機能をデプロイするときは、次の設定を使用します。
settings": { "isCustomInstall": true, "InstallMethod": 0, "DRIVER_URL": " https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", "DKMS_URL" : " https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", "LIS_URL": " https://aka.ms/lis", "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" }
VM サイズが GPU VM サイズではありません
エラーの説明: GPU VM は、Standard_NC4as_T4_v3 または Standard_NC8as_T4_v3 サイズのいずれかである必要があります。 他の VM サイズが使用されていると、GPU 拡張機能のアタッチは失敗します。
推奨される解決方法: Standard_NC4as_T4_v3 または Standard_NC8as_T4_v3 VM サイズを使用して VM を作成します。 詳細については、GPU VM でサポートされている VM サイズに関するページを参照してください。 サイズの指定の詳細については、「GPU VM の作成」を参照してください。
イメージ OS がサポートされていません
エラーの説明: GPU 拡張機能で、VM イメージにインストールされているオペレーティング システムがサポートされていません。
推奨される解決方法: GPU 拡張機能でサポートされているオペレーティング システムを備えた新しい VM イメージを準備します。
サポートされているオペレーティング システムの一覧については、GPU VM でサポートされている OS および GPU ドライバーに関するページを参照してください。
GPU VM のイメージ準備の要件については、「GPU VM の作成」を参照してください。
拡張機能パラメーターが正しくありません
エラーの説明: GPU 拡張機能を Linux VM にデプロイするときに、不正な拡張機能設定が使用されました。
推奨される解決方法: GPU 拡張機能をデプロイする前に、パラメーター ファイルを編集します。 詳細については、GPU 拡張機能のインストールに関するページを参照してください。
パッケージのダウンロード中に VM 拡張機能のインストールに失敗しました
エラーの説明: 拡張機能のインストール中または有効状態で、拡張機能のプロビジョニングに失敗しました。
ゲスト ログで、関連するエラーを確認します。 ゲスト ログを収集するには、Azure Stack Edge Pro 上の VM のゲスト ログを収集する方法に関するページを参照してください。
Linux VM の場合:
/var/log/waagent.log
または/var/log/azure/nvidia-vmext-status
を検索します。
Windows VM の場合:
C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status
でエラー状態を確認します。- 完全な実行ログ
C:\WindowsAzure\Logs\WaAppAgent.txt
を確認します。
パッケージのダウンロード中にインストールが失敗した場合、そのエラーは、VM でパブリック ネットワークにアクセスしてドライバーをダウンロードできなかったことを示します。
推奨されている解決方法:
インターネットに接続されているポートでコンピューティングを有効にします。 ガイダンスについては、「GPU VM の作成」を参照してください。
portal で VM を停止して VM の割り当てを解除します。 VM を停止するには、[仮想マシン]>[概要] の順に移動し、VM を選択します。 次に、VM のプロパティ ページで、[停止] を選択します。
新しい VM を作成します。
VM 拡張機能がエラー dpkg is used/yum lock is used
で失敗しました (Linux VM)
エラーの説明: 別のプロセスが dpkg
を使用していたか、または別のプロセスが yum lock
を作成したため、Linux VM での GPU 拡張機能のデプロイに失敗しました。
推奨される解決方法: 問題を解決するには、次の手順を行います。
ロックを適用しているプロセスを検出するには、\var\log\azure\nvidia-vmext-status ログで、"dpkg is used by another process" または "Another app is holding
yum lock
" などのエラーを探します。プロセスが終了するのを待つか、プロセスを終了します。
再度 GPU 拡張機能をインストールします。
拡張機能のデプロイが再度失敗した場合は、新しい VM を作成して、ロックが存在していないことを確認した後に GPU 拡張機能をインストールします。