使用分区管理 GPU (预览版)

适用于:Azure 本地版本 23H2

本文介绍如何使用 Azure Local 的 Arc 虚拟机(VM)管理 GPU-P。 有关在 Azure Arc 启用的 AKS 上使用 GPU-P 管理,请参阅 将 GPU 用于计算密集型工作负荷

GPU 分区(GPU-P)允许通过将 GPU 拆分为专用的小数分区,与多个工作负荷共享图形处理单元(GPU)。

重要

此功能目前处于预览状态。 有关 beta 版本、预览版或尚未正式发布的版本的 Azure 功能所适用的法律条款,请参阅 Microsoft Azure 预览版的补充使用条款

限制

使用 GPU-P 功能时,请考虑以下限制:

  • 如果配置不是同构的,则不支持 GPU 分区。 下面是一些不受支持的配置示例:

    • 在同一系统中混合来自不同供应商的 GPU。

    • 使用来自同一系统中同一供应商的不同产品系列的不同 GPU 模型。

  • 不能将物理 GPU 分配为离散设备分配(DDA)和可分区 GPU(GPU-P)。 可以将它分配为 DDA 或可分区 GPU,但不能同时分配两者。

  • 只能将单个 GPU 分区分配到 VM。

  • 系统会自动为 VM 分配分区。 无法为特定 VM 选择特定分区。

  • 目前,Azure 本地上的 GPU 分区不支持 VM 的实时迁移。 但是如果出现故障,VM 可以自动重启并放置在 GPU 资源可用的位置。

  • 可以使用 Azure 命令行接口 (CLI) 对 GPU 进行分区。 建议使用 Azure CLI 配置和分配 GPU 分区。 必须手动确保为系统中所有计算机的 GPU 维护同质配置。

先决条件

在创建 Arc VM 期间附加 GPU

按照 Azure 本地创建 Arc 虚拟机中所述的步骤操作,并利用其他硬件配置文件详细信息将 GPU 添加到创建过程。 运行以下操作:

az stack-hci-vm create --name $vmName --resource-group $resource_group --admin-username $userName --admin-password $password --computer-name $computerName --image $imageName --location $location --authentication-type all --nics $nicName --custom-location $customLocationID --hardware-profile memory-mb="8192" processors="4" --storage-path-id $storagePathId --gpus GpuP

有关详细信息,请参阅 az stack-hci-vm create

创建 Arc VM 后附加 GPU

使用以下 CLI 命令附加 GPU:

az stack-hci-vm stop --name your_VM_name --resource-group your_resource_group

可以在命令中指定分区大小,如下所示。 分区大小与 minPartitionVRAM Hyper-V 上的分区 Get-VMHostPartitionableGpu 大小相同。 还可以使用命令而不指定分区大小,如上面的示例所示。

az stack-hci-vm gpu attach --resource-group "test-rg" --custom-location "test-location" --vm-name "test-vm" --gpus GpuP

附加 GPU 分区后,输出将显示完整的 VM 详细信息。 可以通过查看硬件配置文件 virtualMachineGPUs 部分来确认已附加 GPU。 输出如下所示:

"properties":{
	"hardwareProfile":{
		"virtualMachineGPUs":[
			{
				"assignmentType": "GpuP",
				"gpuName": null,
				"partitionSizeMb": 3648
			}
         ],

有关 GPU 附加命令的详细信息,请参阅 az stack-hci-vm gpu

分离 GPU

使用以下 CLI 命令分离 GPU:

az stack-hci-vm gpu detach --resource-group "test-rg" --custom-location "test-location" --vm-name "test-vm" --gpus GpuP

分离 GPU 分区后,输出会显示完整的 VM 详细信息。 可以通过查看硬件配置文件 virtualMachineGPUs来确认 GPU 已分离。 输出如下所示:

"properties":{
	"hardwareProfile":{
		"virtualMachineGPUs":[],

有关 GPU 附加命令的详细信息,请参阅 az stack-hci-vm gpu

后续步骤