Azure Stack Hub 上の GPU (グラフィックス処理装置) 仮想マシン (VM)

[アーティクル]
10/30/2024

この記事では、Azure Stack Hub の統合システムでサポートされているグラフィックス処理装置 (GPU) のモデルについて説明します。この記事には、GPU で使用されるドライバーをインストールする手順も含まれています。 Azure Stack Hub で GPU がサポートされることにより、人工知能、トレーニング、推論、データ視覚化などのソリューションが可能になります。 AMD Radeon Instinct MI25 を使用することで、グラフィックを多用するアプリケーション (Autodesk AutoCAD など) をサポートできます。

3 つの GPU モデルから選択できます。それらは、NVIDIA V100、NVIDIA T4、AMD MI25 の各 GPU で利用できます。これらの物理 GPU は、次のように、Azure N-Series の仮想マシン (VM) の種類に対応しています。

警告

このリリースでは、GPU VM はサポートされていません。 Azure Stack Hub 2005 以降にアップグレードする必要があります。また、Azure Stack Hub ハードウェアには物理 GPU が必要です。

NCv3

NCv3 シリーズ VM は NVIDIA Tesla V100 GPU を備えています。貯留層モデリング、DNA シーケンシング、タンパク質解析、モンテカルロシミュレーションをはじめとする従来の HPC ワークロードに、これらの最新の GPU を活用することができます。

サイズ	vCPU	メモリ:GiB	一時ストレージ (SSD) GiB	GPU	GPU のメモリ: GiB	最大データディスク数	最大 NIC 数
Standard_NC6s_v3	6	112	736	1	16	12	4
Standard_NC12s_v3	12	224	1474	2	32	24	8
Standard_NC24s_v3	24	448	2948	4	64	32	8

NVv4

NVv4 シリーズの仮想マシンには AMD Radeon Instinct MI25 GPU が搭載されています。 NVv4 シリーズでは、Azure Stack Hub は部分的な GPU を備えた仮想マシンを導入します。このサイズは、GPU アクセラレータによるグラフィックスアプリケーションと仮想デスクトップに使用できます。 NVv4 仮想マシンは現在、Windows ゲストオペレーティングシステムのみをサポートしています。

サイズ	vCPU	メモリ:GiB	一時ストレージ (SSD) GiB	GPU	GPU のメモリ: GiB	最大データディスク数	最大 NIC 数
Standard_NV4as_v4	4	14	88	1/8	2	4	2
Standard_NV8as_v4	8	28	176	1/4	4	8	4
Standard_NV16as_v4	16	56	352	1/2	8	16	8
Standard_NV32as_v4	32	112	704	1	16	32	8

NCasT4_v3

サイズ	vCPU	メモリ:GiB	GPU	GPU のメモリ: GiB	最大データディスク数	最大 NIC 数
Standard_NC4as_T4_v3	4	28	1	16	8	4
Standard_NC8as_T4_v3	8	56	1	16	16	8
Standard_NC16as_T4_v3	16	110	1	16	32	8
Standard_NC64as_T4_v3	64	440	4	64	32	8

NC_A100 v4

NC_A100 シリーズの VM には、Tesla V100 GPU の後継となる NVIDIA Ampere A100 GPU が搭載されています。これらの更新された GPU は、リザーバーモデリング、DNA シーケンシング、タンパク質分析、モンテカルロシミュレーションなどの従来の HPC ワークロードに利用できます。

サイズ	vCPU	メモリ:GiB	一時ストレージ (GiB)	最大データディスク数	GPU	GPU メモリ GiB	最大 NIC 数
Standard_NC24ads_A100_v4	24	220	1123	12	1	80	2
Standard_NC48ads_A100_v4	48	440	2246	24	2	160	4

NC_L40S v4

サイズ	vCPU	メモリ:GiB	一時ストレージ (GiB)	最大データディスク数	GPU	GPU メモリ GiB	最大 NIC 数
Standard_NC24ads_L40S_v4	24	220	1123	8	1	80	2
Standard_NC48ads_L40S_v4	48	440	2246	16	2	160	4

GPU システムの考慮事項

GPU は次のいずれかの SKU である必要があります: AMD MI-25、Nvidia V100 (およびバリアント)、Nvidia T4。
サポートされているサーバーあたりの GPU 数 (1、2、3、4)。推奨: 1、2、4。
すべての GPU が、スケールユニット全体でまったく同じ SKU である必要があります。
サーバーあたりの GPU 量は、スケールユニット全体ですべて同じである必要があります。
GPU パーティションサイズ (AMD Mi25 の場合) は、スケールユニット上のすべての GPU VM で同じである必要があります。

容量計画

GPU 構成をサポートするために、Azure Stack Hub Capacity Planner が更新されました。ここでアクセスできます。

既存の Azure Stack Hub 上での GPU の追加

Azure Stack Hub で既存のシステムに GPU を追加できるようになりました。 GPU を追加するには、 stop-azurestackを実行し、 stop-azurestackの手順を実行し、GPU を追加してから、完了するまで start-azurestack を実行します。システムに既に GPU がある場合は、以前に作成した GPU VM を stop-deallocated してから再起動する必要があります。

修正プログラム、更新プログラムの適用時、および FRU の際の VM の動作

GPU VM は、Azure Stack Hub のパッチと更新プログラム (PnU) やハードウェア交換 (FRU) などの操作中にダウンタイムが発生します。次の表は、これらのアクティビティ中に見られる VM の状態と、操作後にこれらの VM を使用できるようにするために実行できる手動のアクションを示しています。

操作	PnU - 完全更新、OEM 更新	FRU
VM の状態	更新中は使用できません。手動操作で使用可能にできます。 VM は更新後に自動的にオンラインになります。	FRU 中は使用できません。手動操作で使用可能にできます。 FRU 後に VM を再度起動する必要があります
手動操作	更新中に VM を使用できるようにする必要があるときは、使用可能な GPU パーティションがある場合は、ポータルで [再起動] ボタンをクリックすることで VM を再起動できます。 VM は更新後に自動的にバックアップされます。	FRU 中、VM は使用できません。使用可能な GPU がある場合は、FRU 中、VM の停止-割り当て解除を行い、再起動することができます。 FRU の完了後、VM は Stop ボタンを使用して`stop-deallocated`し、Start ボタンを使用して再起動する必要があります。

ゲストドライバーのインストール

次の PowerShell コマンドレットを、ドライバーのインストールに使用できます。

$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"

Set-AzureRmVMExtension  -Location $Location `
                            -Publisher $driverPublisher `
                            -ExtensionType $driverType `
                            -TypeHandlerVersion $driverVersion `
                            -VMName $VmName `
                            -ResourceGroupName $ResourceGroupName `
                            -Name $driverName `
                            -Settings $Settings ` # If no settings are set, omit this parameter
                            -Verbose

Azure Stack Hub GPU VM の OS、種類、接続性に応じて、これらの値を以下の設定に置き換える必要があります。

AMD MI25

ゲストドライバーのバージョンは、接続状態に関係なく、Azure Stack Hub のバージョンと一致する必要があります。 Azure Stack Hub のバージョンと一致しない新しいバージョンを使用すると、使いやすさの問題が発生する可能性があります。

Azure Stack Hub のバージョン	AMD ゲストドライバー
2206 以降	21.Q2-1, 20.Q4-1
2108	21.Q2-1, 20.Q4-1
2102	21.Q2-1, 20.Q4-1

接続済み

前のセクションの PowerShell スクリプトを、AMD の適切なドライバーの種類と共に使用します。 Windows を実行している N シリーズ VM に AMD GPU ドライバーをインストールする記事では、NVv4 GPU-P 対応 VM 内に AMD Radeon Instinct MI25 のドライバーをインストールする手順と、ドライバーのインストールを確認する手順について説明します。

[Disconnected](切断済み)

拡張機能はインターネット上の場所からドライバーをプルするため、外部ネットワークから切断された VM はアクセスできません。前の表からドライバーをダウンロードし VM にアクセスできるローカルネットワーク内のストレージアカウントにアップロードできます。

ストレージアカウントに AMD ドライバーを追加し、 Settingsでそのアカウントの URL を指定します。これらの設定は、 Set-AzureRMVMExtension コマンドレットで使用する必要があります。次に例を示します。

$Settings = @{
"DriverURL" = <URL to driver in storage account>
}

NVIDIA

GPU を使用する CUDA または GRID ワークロード用の仮想マシン内に、NVIDIA ドライバーをインストールする必要があります。

ユースケース: グラフィックス/視覚化 GRID

このシナリオには、GRID ドライバーを使用する必要があります。必要なライセンスをお持ちの場合は、NVIDIA アプリケーションハブから GRID ドライバーをダウンロードできます。また、GRID ドライバーには、VM で GRID ドライバーを使用する前に、適切な GRID ライセンスが含まれる GRID ライセンスサーバーも必要です。

$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="GRID"
}

ユースケース: compute/CUDA - 接続済み

CUDA ドライバーはライセンスサーバーを必要とせず、設定を変更する必要はありません。

ユースケース: compute/CUDA - 切断

NVIDIA CUDA ドライバーへのリンクは、次のリンクを使用して取得できます: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json

Windows:

$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664"; 
"DriverType"="CUDA"
}

Linux:

設定の一部の URL を参照する必要があります。

URL	メモ
PUBKEY_URL	PUBKEY_URL は、Linux VM 用ではない Nvidia ドライバーリポジトリ向け公開キーです。 Ubuntu 用のドライバーをインストールするために使用されます。
DRIVER_URL	DRIVER_URLは、Nvidia ドライバーのリポジトリ情報をダウンロードするための URL であり、Linux VM のリポジトリの一覧に追加されます。

URL を設定に追加します。

$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}

次の方法で共有

Azure Stack Hub 上の GPU (グラフィックス処理装置) 仮想マシン (VM)

NCv3

NVv4

NCasT4_v3

NC_A100 v4

NC_L40S v4

GPU システムの考慮事項

容量計画

既存の Azure Stack Hub 上での GPU の追加

修正プログラム、更新プログラムの適用時、および FRU の際の VM の動作

ゲストドライバーのインストール

AMD MI25

接続済み

[Disconnected](切断済み)

NVIDIA

ユースケース: グラフィックス/視覚化 GRID

ユースケース: compute/CUDA - 接続済み

ユースケース: compute/CUDA - 切断

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure Stack Hub 上の GPU (グラフィックス処理装置) 仮想マシン (VM)

NCv3

NVv4

NCasT4_v3

NC_A100 v4

NC_L40S v4

GPU システムの考慮事項

容量計画

既存の Azure Stack Hub 上での GPU の追加

修正プログラム、更新プログラムの適用時、および FRU の際の VM の動作

ゲスト ドライバーのインストール

AMD MI25

接続済み

[Disconnected](切断済み)

NVIDIA

ユース ケース: グラフィックス/視覚化 GRID

ユース ケース: compute/CUDA - 接続済み

ユース ケース: compute/CUDA - 切断

次のステップ

フィードバック

その他のリソース

ゲストドライバーのインストール

ユースケース: グラフィックス/視覚化 GRID

ユースケース: compute/CUDA - 接続済み

ユースケース: compute/CUDA - 切断