Uso de GPU con máquinas virtuales en clúster

Artículo
10/25/2024
Se aplica a:

✅ Windows Server 2025, ✅ Windows Server 2022, ✅ Windows Server 2019, ✅ Windows Server 2016, ✅ Azure Stack HCI, versions 23H2 and 22H2

Se aplica a: Azure Stack HCI, versiones 23H2 y 22H2

Nota:

La manera recomendada de crear y administrar máquinas virtuales en Azure Stack HCI 23H2 es usar el plano de control de Azure Arc. Use el mecanismo que se describe a continuación para administrar las máquinas virtuales solo si necesita funcionalidad que no está disponible en máquinas virtuales de Azure Arc.

Puede incluir GPU en los clústeres para dar aceleración mediante GPU a las cargas de trabajo que se ejecutan en máquinas virtuales en clúster. La aceleración de GPU se puede proporcionar a través de asignación discreta de dispositivos (DDA), que permite dedicar una o varias GPU físicas a una VM, o mediante la creación de particiones de GPU. Las VM en clúster pueden aprovechar la aceleración de GPU y las funcionalidades de agrupación en clústeres, como la alta disponibilidad a través de la conmutación por error. Actualmente, no se admite la migración activa de máquinas virtuales (VM), pero las máquinas virtuales se pueden reiniciar automáticamente y colocar donde los recursos de las GPU estén disponibles si se produce un error.

En este artículo, aprenderá a usar unidades de procesamiento de gráficos (GPU) con máquinas virtuales en clúster para proporcionar aceleración de GPU a las cargas de trabajo mediante la asignación discreta de dispositivos. Este artículo le guiará para preparar un clúster, asignar una GPU a una máquina virtual de clúster y realizar la conmutación por error de esa máquina virtual mediante Windows Admin Center y PowerShell.

Requisitos previos

Hay varios requisitos y aspectos que se deben tener en cuenta antes de empezar a utilizar las GPU con VM en clúster:

Necesita un clúster de Azure Stack HCI que ejecute Azure Stack HCI, versión 22H2 o posterior.

Necesita un clúster con conmutación por error de Windows Server que ejecute Windows Server 2025 o posterior.

Debe instalar la misma marca y modelo de las GPU en todos los servidores del clúster.
Revise y siga las indicaciones del fabricante de la GPU para instalar los controladores y el software necesarios en cada servidor del clúster.
En función de su proveedor de hardware, es posible que también deba configurar los requisitos de licencia de la GPU.
Necesita tener un equipo con Windows Admin Center instalado. Este equipo podría ser uno de los nodos del clúster.

Cree una máquina virtual a la que asignar la GPU. Prepare la máquina virtual para la DDA eligiendo el modo de caché, la acción de detención y las propiedades de E/S asignadas a la memoria (MMIO) de acuerdo con las instrucciones recogidas en Implementación de dispositivos gráficos mediante la asignación discreta de dispositivos.
Prepare las GPU en cada servidor instalando los controladores de mitigación de seguridad en cada servidor, deshabilitando las GPU y desmontándolas del host. Para obtener más información sobre este proceso, consulte Implementación de dispositivos gráficos mediante la asignación discreta de dispositivos.

Siga los pasos descritos en Planificación para implementar dispositivos mediante la asignación discreta de dispositivos.
Asegúrese de que el dispositivo tiene suficiente espacio de MMIO asignado en la máquina virtual. Para obtener más información, consulte Espacio MMIO.
Cree una máquina virtual a la que asignar la GPU. Prepare la máquina virtual para la DDA eligiendo el modo de caché, la acción de detención y las propiedades de E/S asignadas a la memoria (MMIO) de acuerdo con las instrucciones recogidas en Implementación de dispositivos gráficos mediante la asignación discreta de dispositivos.
Prepare las GPU en cada servidor instalando los controladores de mitigación de seguridad en cada servidor, deshabilitando las GPU y desmontándolas del host. Para obtener más información sobre este proceso, consulte Implementación de dispositivos gráficos mediante la asignación discreta de dispositivos.

Nota:

El sistema debe ser compatible con la solución Azure Stack HCI con compatibilidad con GPU. Para examinar las opciones, visite el Catálogo de Azure Stack HCI.

Preparación del clúster

Cuando se reúnan los requisitos previos , puede preparar el clúster para usar GPU con máquinas virtuales en clúster.

Al preparar el clúster, se crea un grupo de recursos que contiene las GPU preparadas para la asignación a las máquinas virtuales. El clúster usa este grupo para determinar la ubicación de las máquinas virtuales iniciadas o movidas que se asignan al grupo de recursos de las GPU.

Windows Admin Center
PowerShell

En Windows Admin Center, siga estos pasos para preparar el clúster para usar GPU con máquinas virtuales en clúster.

Para preparar el clúster y asignar una máquina virtual a un grupo de recursos de GPU, haga lo siguiente:

Inicie Windows Admin Center y asegúrese de que la extensión de GPU ya está instalada.
Seleccione Administrador de clústeres en el menú desplegable de arriba y conéctese al clúster.
En el menú Configuración, seleccione Extensiones>GPU.
En el menú Herramientas, en Extensiones, seleccione GPU para abrir la herramienta.
En la página principal de la herramienta, seleccione la pestaña GPU pools (Grupos de GPU) y, a continuación, seleccione Create GPU pool (Crear grupo de GPU).
En la página New GPU pool (Nuevo grupo de GPU), especifique lo siguiente y, a continuación, seleccione Guardar:
1. Nombre del servidor
2. Nombre del grupo de GPU
3. Las GPU que desea agregar al grupo
Una vez completado el proceso, recibirá un mensaje de confirmación que muestra el nombre del nuevo grupo de GPU y el servidor host.

Siga estos pasos para preparar el clúster para usar GPU con máquinas virtuales en clúster mediante PowerShell.

Cree un nuevo grupo de recursos vacío en cada servidor con los recursos de GPU en clúster. Asegúrese de proporcionar el mismo nombre de grupo en cada servidor.

En PowerShell, ejecute como administrador el siguiente cmdlet:
```
 New-VMResourcePool -ResourcePoolType PciExpress -Name "GpuChildPool"
```
Agregue las GPU desmontadas de cada servidor al grupo de recursos que creó en el paso anterior.

En PowerShell, ejecute los siguientes comandos:
```
 $gpu = Get-VMHostAssignableDevice

 Add-VMHostAssignableDevice -HostAssignableDevice $gpu -ResourcePoolName "GpuChildPool"
```

Ahora tiene un grupo de recursos de todo el clúster (denominado GpuChildPool) que se rellena con las GPU asignables. El clúster usa este grupo para determinar la ubicación de las máquinas virtuales iniciadas o movidas que se asignan al grupo de recursos de las GPU.

Asignación de una VM a un grupo de recursos de GPU

Ahora puede asignar una máquina virtual a un grupo de recursos de GPU. Puede asignar una o varias máquinas virtuales a un grupo de recursos de GPU en clúster y quitar una máquina virtual de un grupo de recursos de GPU en clúster.

Windows Admin Center
PowerShell

Siga estos pasos para asignar una máquina virtual existente a un grupo de recursos de GPU a través de Windows Admin Center.

Nota:

También tiene que instalar controladores del fabricante de la GPU dentro de la VM para que las aplicaciones de la VM puedan aprovechar las ventajas de la GPU asignada a ellas.

En la página Asignar máquina virtual al grupo de GPU, indique lo siguiente y luego seleccione Asignar:
1. Nombre del servidor
2. Nombre del grupo de GPU
3. La máquina virtual a la que desea asignar la GPU del grupo de GPU
También puede definir valores de configuración avanzada para espacios de E/S asignadas a la memoria (MMIO) a fin de determinar los requisitos de recursos para una sola GPU.

Una vez completado el proceso, recibirá un mensaje de confirmación que muestra que ha asignado correctamente la GPU del grupo de recursos de GPU a la máquina virtual, que se muestra en Assigned VMs (Máquinas virtuales asignadas).

Para cancelar la asignación de una máquina virtual de un grupo de recursos de GPU, haga lo siguiente:

En la pestaña GPU pools (Grupos de GPU), seleccione la GPU de la que desea cancelar la asignación y, a continuación, seleccione Unassign VM (Cancelar asignación de máquina virtual).
En la página Unassign VM from GPU pool (Cancelar asignación de máquina virtual de un grupo de GPU), en el cuadro de lista Máquinas virtuales, especifique el nombre de la máquina virtual y, a continuación, seleccione Cancelar asignación.

Una vez terminado el proceso, recibirá un mensaje indicándole que se ha eliminado correctamente la asignación de la máquina virtual del grupo de GPU y, en Estado de asignación, en la GPU aparecerá la opción Disponible (no asignada).

Siga estos pasos para asignar una máquina virtual existente a un grupo de recursos de GPU mediante PowerShell.

Configure la acción de desconexión predeterminada del recurso de VM del clúster como force-shutdown en lugar de save. Asegúrese de cambiar <vmname> por el nombre de la máquina virtual que desee asignar al grupo de recursos de GPU.

En PowerShell, ejecute el cmdlet siguiente:
```
 Get-ClusterResource -name <vmname> | Set-ClusterParameter -Name "OfflineAction" -Value 3
```
Asigne el grupo de recursos que creó anteriormente a la VM. La asignación del grupo de recursos declara al clúster que la máquina virtual necesita un dispositivo asignado del grupo GpuChildPool cuando se inicia o se mueve.

En PowerShell, ejecute el cmdlet siguiente:
```
 Get-ClusterResource -name <vmname> | Add-VMAssignableDevice -ResourcePoolName "GpuChildPool"
```
Nota:

Si desea agregar más de una GPU a la máquina virtual, compruebe primero que el grupo de recursos tenga más de una GPU que se pueda asignar disponible y, a continuación, vuelva a ejecutar el comando anterior.

También puede quitar una GPU asignada de una máquina virtual. Para ello, ejecute el siguiente comando en PowerShell. Asegúrese de cambiar <vmname> por el nombre de la máquina virtual que desee asignar al grupo de recursos de GPU.
```
 Add-VMAssignableDevice -VMName $vm -ResourcePoolName "GpuChildPool"

 $vm | Remove-VMAssignableDevice
```

Al iniciar la máquina virtual, el clúster se encarga de que la máquina virtual se coloque en un servidor con recursos de GPU disponibles en este grupo del clúster entero. El clúster también asigna la GPU a la VM a través de la asignación discreta de dispositivos, lo que permite acceder a la GPU desde cargas de trabajo dentro de la VM.

Conmutación por error de una VM con una GPU asignada

Para probar la capacidad del clúster de mantener la carga de trabajo de GPU disponible, realice una operación de purga en el servidor donde se ejecuta la VM con una GPU asignada. Para purgar el servidor, siga las instrucciones indicadas en Procedimientos de mantenimiento de clústeres de conmutación por error. El clúster reinicia la máquina virtual en otro servidor del clúster, siempre que otro servidor tenga suficientes recursos de GPU disponibles en el grupo creado.

Para obtener más información sobre el uso de GPU con máquinas virtuales en clúster, consulte:

Para obtener más información sobre el uso de GPU con las máquinas virtuales y la creación de particiones de GPU, consulte:

Compartir a través de

Uso de GPU con máquinas virtuales en clúster

Requisitos previos

Preparación del clúster

Asignación de una VM a un grupo de recursos de GPU

Conmutación por error de una VM con una GPU asignada

Comentarios

Recursos adicionales

Compartir a través de

Uso de GPU con máquinas virtuales en clúster

Requisitos previos

Preparación del clúster

Asignación de una VM a un grupo de recursos de GPU

Conmutación por error de una VM con una GPU asignada

Contenido relacionado

Comentarios

Recursos adicionales