使用分区管理 GPU (预览版)
适用于:Azure Local 2311.2 及更高版本
本文介绍如何使用 Azure Local 的 Arc 虚拟机(VM)管理 GPU-P。 有关在 Azure Arc 启用的 AKS 上使用 GPU-P 管理,请参阅 将 GPU 用于计算密集型工作负荷。
GPU 分区(GPU-P)允许通过将 GPU 拆分为专用的小数分区,与多个工作负荷共享图形处理单元(GPU)。
重要
此功能目前处于预览状态。 有关 beta 版本、预览版或尚未正式发布的版本的 Azure 功能所适用的法律条款,请参阅 Microsoft Azure 预览版的补充使用条款。
限制
使用 GPU-P 功能时,请考虑以下限制:
如果配置不是同构的,则不支持 GPU 分区。 下面是一些不受支持的配置示例:
在同一系统中混合来自不同供应商的 GPU。
使用来自同一系统中同一供应商的不同产品系列的不同 GPU 模型。
不能将物理 GPU 分配为离散设备分配(DDA)和可分区 GPU(GPU-P)。 可以将它分配为 DDA 或可分区 GPU,但不能同时分配两者。
只能将单个 GPU 分区分配到 VM。
系统会自动为 VM 分配分区。 无法为特定 VM 选择特定分区。
目前,Azure 本地上的 GPU 分区不支持 VM 的实时迁移。 但是如果出现故障,VM 可以自动重启并放置在 GPU 资源可用的位置。
可以使用 Azure 命令行接口 (CLI) 对 GPU 进行分区。 建议使用 Azure CLI 配置和分配 GPU 分区。 必须手动确保为系统中所有计算机的 GPU 维护同质配置。
先决条件
- 有关 要求以及准备 Azure 本地 VM 和 Azure 本地 VM 的 GPU ,并确保已准备好并分区 GPU,请参阅“准备 GPU”。
在创建 Arc VM 期间附加 GPU
按照 Azure 本地创建 Arc 虚拟机中所述的步骤操作,并利用其他硬件配置文件详细信息将 GPU 添加到创建过程。 运行以下操作:
az stack-hci-vm create --name $vmName --resource-group $resource_group --admin-username $userName --admin-password $password --computer-name $computerName --image $imageName --location $location --authentication-type all --nics $nicName --custom-location $customLocationID --hardware-profile memory-mb="8192" processors="4" --storage-path-id $storagePathId --gpus GpuP
有关详细信息,请参阅 az stack-hci-vm create。
创建 Arc VM 后附加 GPU
使用以下 CLI 命令附加 GPU:
az stack-hci-vm stop --name your_VM_name --resource-group your_resource_group
可以在命令中指定分区大小,如下所示。 分区大小与 minPartitionVRAM
Hyper-V 上的分区 Get-VMHostPartitionableGpu
大小相同。 还可以使用命令而不指定分区大小,如上面的示例所示。
az stack-hci-vm gpu attach --resource-group "test-rg" --custom-location "test-location" --vm-name "test-vm" --gpus GpuP
附加 GPU 分区后,输出将显示完整的 VM 详细信息。 可以通过查看硬件配置文件 virtualMachineGPUs
部分来确认已附加 GPU。 输出如下所示:
"properties":{
"hardwareProfile":{
"virtualMachineGPUs":[
{
"assignmentType": "GpuP",
"gpuName": null,
"partitionSizeMb": 3648
}
],
有关 GPU 附加命令的详细信息,请参阅 az stack-hci-vm gpu。
分离 GPU
使用以下 CLI 命令分离 GPU:
az stack-hci-vm gpu detach --resource-group "test-rg" --custom-location "test-location" --vm-name "test-vm" --gpus GpuP
分离 GPU 分区后,输出会显示完整的 VM 详细信息。 可以通过查看硬件配置文件 virtualMachineGPUs
来确认 GPU 已分离。 输出如下所示:
"properties":{
"hardwareProfile":{
"virtualMachineGPUs":[],
有关 GPU 附加命令的详细信息,请参阅 az stack-hci-vm gpu。