Usar GPUs com VMs clusterizadas

Artigo
12/31/2024
Aplica-se a:

✅ Windows Server 2025, ✅ Windows Server 2022, ✅ Windows Server 2019, ✅ Windows Server 2016, ✅ Azure Local, version 22H2

Aplica-se a: Azure Stack HCI, versão 22H2

Você pode incluir unidades de processamento gráfico (GPUs) em seus clusters para fornecer aceleração de GPU a cargas de trabalho executadas em VMs em cluster. A aceleração de GPU pode ser fornecida por meio de DDA (Atribuição de Dispositivo Discreto), que permite dedicar uma ou mais GPUs físicas a uma VM, ou por meio de Particionamento de GPU. As VMs em cluster podem aproveitar a aceleração da GPU e os recursos de clustering, como a alta disponibilidade por meio de failover. No momento, não há suporte para a migração em tempo real de VMs (máquinas virtuais), mas as VMs podem ser reiniciadas automaticamente e colocadas onde os recursos de GPU estiverem disponíveis se houver uma falha.

Neste artigo, você aprenderá a usar GPUs com VMs em cluster para proporcionar aceleração de GPU a cargas de trabalho usando a atribuição de dispositivos discreta. Este artigo o orienta na preparação do cluster, na atribuição de uma GPU a uma VM de cluster e na ocorrência de falha nessa VM usando o Windows Admin Center e o PowerShell.

Para obter informações sobre como gerenciar GPUs no Azure Local, versão 23H2, consulte Preparar GPUs para o Azure Local.

Pré-requisitos

Há vários requisitos e pontos a serem considerados antes de você começar a usar GPUs com VMs em cluster:

Você precisa de uma instância local do Azure executando o sistema operacional Azure Stack HCI, versão 22H2 ou posterior.

Você precisa de um cluster do Windows Server Failover executando o Windows Server 2025 ou posterior.

Você deve instalar a mesma marca e modelo de GPUs em todos os servidores do seu cluster.
Analise e siga as instruções do fabricante da GPU para instalar os drivers e o software necessários em cada servidor do cluster.
Dependendo do fornecedor do hardware, talvez você também precise configurar os requisitos de licenciamento da GPU.
Você precisa de uma máquina com o Windows Admin Center instalado. Essa máquina pode ser um dos nós de seu cluster.

Crie uma VM para atribuir a GPU. Prepare essa VM para o DDA definindo seu comportamento de cache, ação de parada e propriedades de E/S mapeadas na memória (MMIO) de acordo com as instruções em Implantar dispositivos gráficos usando a atribuição de dispositivos discretos..
Prepare as GPUs em cada servidor instalando drivers de controle de segurança em cada servidor, desativando as GPUs e desmontando-as do host. Para saber mais sobre esse processo, consulte Implantar dispositivos gráficos usando a Atribuição de dispositivos discretos.

Siga as etapas em Planejar a implantação de dispositivos usando a Atribuição de dispositivos discretos para preparar os dispositivos de GPU no cluster.
Verifique se o dispositivo tem espaço MMIO suficiente alocado na VM. Para obter mais informações, confira Espaço MMIO.
Crie uma VM para atribuir a GPU. Prepare essa VM para o DDA definindo seu comportamento de cache, ação de parada e propriedades de E/S mapeadas na memória (MMIO) de acordo com as instruções em Implantar dispositivos gráficos usando a atribuição de dispositivos discretos..
Prepare as GPUs em cada servidor instalando drivers de controle de segurança em cada servidor, desativando as GPUs e desmontando-as do host. Para saber mais sobre esse processo, consulte Implantar dispositivos gráficos usando a Atribuição de dispositivos discretos.

Observação

Seu sistema deve ser compatível com a solução Azure Local com suporte de GPU. Para procurar as opções, visite o Catálogo do Azure Local.

Preparar o cluster

Quando os pré-requisitos forem atendidos, você poderá preparar o cluster para usar GPUs com VMs em cluster.

A preparação do cluster envolve a criação de um pool de recursos que contém as GPUs disponíveis para atribuição às VMs. O cluster usa esse pool para determinar o posicionamento da VM para todas as VMs iniciadas ou movidas que são atribuídas ao pool de recursos da GPU.

Windows Admin Center
PowerShell

Usando o Windows Admin Center, siga estas etapas para preparar o cluster para usar GPUs com VMs em cluster.

Para preparar o cluster e atribuir uma VM a um pool de recursos de GPU:

Inicie o Windows Admin Center e verifique se a extensão GPUs já está instalada.
Selecione Gerenciador de Cluster no menu suspenso superior e conecte-se ao cluster.
No menu Configurações, selecione Extensões>GPUs.
No manu Ferramentas, em Extensões, selecione GPUs para abrir a ferramenta.
Na página principal da ferramenta, selecione a guia Pools de GPU e, em seguida, selecione Criar pool de GPU.
Na página Novo pool de GPUs, especifique o seguinte e selecione Salvar:
1. Nome do servidor
2. Nome do pool de GPU
3. GPUs que você deseja adicionar ao pool
Após a conclusão do processo, você receberá um prompt de sucesso que mostra o nome do novo pool de GPUs e o servidor host.

Siga estas etapas para preparar o cluster para usar GPUs com VMs em cluster usando o PowerShell.

Crie um novo pool de recursos vazio em cada servidor que contém os recursos de GPU em cluster. Certifique-se de fornecer o mesmo nome de pool em cada servidor.

No PowerShell, execute o seguinte cmdlet como administrador:
```
 New-VMResourcePool -ResourcePoolType PciExpress -Name "GpuChildPool"
```
Adicione as GPUs desmontadas de cada servidor ao pool de recursos que você criou na etapa anterior.

No PowerShell, execute os seguintes comandos:
```
 $gpu = Get-VMHostAssignableDevice

 Add-VMHostAssignableDevice -HostAssignableDevice $gpu -ResourcePoolName "GpuChildPool"
```

Agora você tem um pool de recursos em todo o cluster (denominado GpuChildPool) que é preenchido com GPUs atribuíveis. O cluster usa esse pool para determinar o posicionamento da VM para todas as VMs iniciadas ou movidas que são atribuídas ao pool de recursos da GPU.

Atribua uma VM a um pool de recursos de GPU

Agora você pode atribuir uma VM a um pool de recursos de GPU. Você pode atribuir uma ou mais VMs a um pool de recursos de GPU em cluster e remover uma VM de um pool de recursos de GPU em cluster.

Windows Admin Center
PowerShell

Siga estas etapas para atribuir uma VM existente a um pool de recursos de GPU usando o Windows Admin Center.

Observação

Você também precisa instalar drivers do fabricante da GPU dentro da VM para que os aplicativos na VM possam aproveitar a GPU atribuída a eles.

Na página Atribuir VM ao pool de GPUs, especifique o seguinte e selecione Atribuir:
1. Nome do servidor
2. Nome do pool de GPU
3. Máquina virtual à qual você deseja atribuir a GPU do pool de GPUs.
Você também pode definir valores de configuração avançados para espaços de E/S mapeados em memória (MMIO) para determinar os requisitos de recursos para uma única GPU.

Após a conclusão do processo, você receberá um prompt de confirmação que mostra que você atribuiu com êxito a GPU do pool de recursos da GPU à VM, que é exibida em VMs atribuídas.

Para cancelar a atribuição de uma VM de um pool de recursos de GPU:

Na guia pools de GPU, selecione a GPU que você deseja cancelar a atribuição e, em seguida, selecione Cancelar atribuição de VM.
Na página Cancelar atribuição de VM do pool de GPU, na caixa de listagem Máquinas virtuais, especifique o nome da VM e selecione Cancelar atribuição.

Após a conclusão do processo, você receberá um aviso de sucesso informando que a VM foi desatribuída do pool de GPUs e, em Status de atribuição, a GPU mostrará Disponível (Não atribuída)..

Siga estas etapas para atribuir uma VM existente a um pool de recursos de GPU usando o PowerShell.

Configure a ação offline padrão do recurso de VM do cluster como force-shutdown em vez de save. Certifique-se de substituir <vmname> pelo nome da VM que você deseja atribuir ao pool de recursos da GPU.

No PowerShell, execute o seguinte cmdlet:
```
 Get-ClusterResource -name <vmname> | Set-ClusterParameter -Name "OfflineAction" -Value 3
```
Atribua o pool de recursos que você criou anteriormente à VM. A atribuição do pool de recursos declara ao cluster que a VM requer um dispositivo atribuído do GpuChildPool pool quando é iniciada ou movida.

No PowerShell, execute o seguinte cmdlet:
```
 Get-ClusterResource -name <vmname> | Add-VMAssignableDevice -ResourcePoolName "GpuChildPool"
```
Observação

Se você quiser adicionar mais de uma GPU à VM, primeiro verifique se o pool de recursos tem mais de uma GPU atribuível disponível e, em seguida, execute o comando anterior novamente.

Você também pode remover uma GPU atribuída de uma VM. Para fazer isso no PowerShell, execute o comando a seguir. Certifique-se de substituir <vmname> pelo nome da VM que você deseja atribuir ao pool de recursos da GPU.
```
 Add-VMAssignableDevice -VMName $vm -ResourcePoolName "GpuChildPool"

 $vm | Remove-VMAssignableDevice
```

Quando você inicia a VM, o cluster garante que a VM seja colocada em um servidor com recursos de GPU disponíveis desse pool em todo o cluster. O cluster também atribui a GPU à VM por meio do DDA, o que permite que a GPU seja acessada a partir de cargas de trabalho dentro da VM.

Fazer failover de uma VM com uma GPU atribuída

Para testar a capacidade do cluster de manter a carga de trabalho da GPU disponível, execute uma operação de drenagem no servidor em que a VM está sendo executada com uma GPU atribuída. Para drenar o servidor, siga as instruções em Procedimentos de manutenção do cluster de failover. O cluster reinicia a VM em outro servidor do cluster, desde que outro servidor tenha recursos de GPU disponíveis suficientes no pool que você criou.

Para obter mais informações sobre o uso de GPUs com suas VMs em cluster, consulte:

Para obter mais informações sobre como usar GPUs com suas VMs e particionamento de GPU, consulte:

Compartilhar via

Usar GPUs com VMs clusterizadas

Pré-requisitos

Preparar o cluster

Atribua uma VM a um pool de recursos de GPU

Fazer failover de uma VM com uma GPU atribuída

Comentários

Recursos adicionais

Compartilhar via

Usar GPUs com VMs clusterizadas

Pré-requisitos

Preparar o cluster

Atribua uma VM a um pool de recursos de GPU

Fazer failover de uma VM com uma GPU atribuída

Conteúdo relacionado

Comentários

Recursos adicionais