Usar GPUs com VMs clusterizadas
Aplica-se a: Azure Stack HCI, versão 22H2
Você pode incluir unidades de processamento gráfico (GPUs) em seus clusters para fornecer aceleração de GPU a cargas de trabalho executadas em VMs em cluster. A aceleração de GPU pode ser fornecida por meio de DDA (Atribuição de Dispositivo Discreto), que permite dedicar uma ou mais GPUs físicas a uma VM, ou por meio de Particionamento de GPU. As VMs em cluster podem aproveitar a aceleração da GPU e os recursos de clustering, como a alta disponibilidade por meio de failover. No momento, não há suporte para a migração em tempo real de VMs (máquinas virtuais), mas as VMs podem ser reiniciadas automaticamente e colocadas onde os recursos de GPU estiverem disponíveis se houver uma falha.
Neste artigo, você aprenderá a usar GPUs com VMs em cluster para proporcionar aceleração de GPU a cargas de trabalho usando a atribuição de dispositivos discreta. Este artigo o orienta na preparação do cluster, na atribuição de uma GPU a uma VM de cluster e na ocorrência de falha nessa VM usando o Windows Admin Center e o PowerShell.
Para obter informações sobre como gerenciar GPUs no Azure Local, versão 23H2, consulte Preparar GPUs para o Azure Local.
Pré-requisitos
Há vários requisitos e pontos a serem considerados antes de você começar a usar GPUs com VMs em cluster:
- Você precisa de uma instância local do Azure executando o sistema operacional Azure Stack HCI, versão 22H2 ou posterior.
- Você precisa de um cluster do Windows Server Failover executando o Windows Server 2025 ou posterior.
Você deve instalar a mesma marca e modelo de GPUs em todos os servidores do seu cluster.
Analise e siga as instruções do fabricante da GPU para instalar os drivers e o software necessários em cada servidor do cluster.
Dependendo do fornecedor do hardware, talvez você também precise configurar os requisitos de licenciamento da GPU.
Você precisa de uma máquina com o Windows Admin Center instalado. Essa máquina pode ser um dos nós de seu cluster.
Crie uma VM para atribuir a GPU. Prepare essa VM para o DDA definindo seu comportamento de cache, ação de parada e propriedades de E/S mapeadas na memória (MMIO) de acordo com as instruções em Implantar dispositivos gráficos usando a atribuição de dispositivos discretos..
Prepare as GPUs em cada servidor instalando drivers de controle de segurança em cada servidor, desativando as GPUs e desmontando-as do host. Para saber mais sobre esse processo, consulte Implantar dispositivos gráficos usando a Atribuição de dispositivos discretos.
Siga as etapas em Planejar a implantação de dispositivos usando a Atribuição de dispositivos discretos para preparar os dispositivos de GPU no cluster.
Verifique se o dispositivo tem espaço MMIO suficiente alocado na VM. Para obter mais informações, confira Espaço MMIO.
Crie uma VM para atribuir a GPU. Prepare essa VM para o DDA definindo seu comportamento de cache, ação de parada e propriedades de E/S mapeadas na memória (MMIO) de acordo com as instruções em Implantar dispositivos gráficos usando a atribuição de dispositivos discretos..
Prepare as GPUs em cada servidor instalando drivers de controle de segurança em cada servidor, desativando as GPUs e desmontando-as do host. Para saber mais sobre esse processo, consulte Implantar dispositivos gráficos usando a Atribuição de dispositivos discretos.
Observação
Seu sistema deve ser compatível com a solução Azure Local com suporte de GPU. Para procurar as opções, visite o Catálogo do Azure Local.
Preparar o cluster
Quando os pré-requisitos forem atendidos, você poderá preparar o cluster para usar GPUs com VMs em cluster.
A preparação do cluster envolve a criação de um pool de recursos que contém as GPUs disponíveis para atribuição às VMs. O cluster usa esse pool para determinar o posicionamento da VM para todas as VMs iniciadas ou movidas que são atribuídas ao pool de recursos da GPU.
Usando o Windows Admin Center, siga estas etapas para preparar o cluster para usar GPUs com VMs em cluster.
Para preparar o cluster e atribuir uma VM a um pool de recursos de GPU:
Inicie o Windows Admin Center e verifique se a extensão GPUs já está instalada.
Selecione Gerenciador de Cluster no menu suspenso superior e conecte-se ao cluster.
No menu Configurações, selecione Extensões>GPUs.
No manu Ferramentas, em Extensões, selecione GPUs para abrir a ferramenta.
Na página principal da ferramenta, selecione a guia Pools de GPU e, em seguida, selecione Criar pool de GPU.
Na página Novo pool de GPUs, especifique o seguinte e selecione Salvar:
- Nome do servidor
- Nome do pool de GPU
- GPUs que você deseja adicionar ao pool
Após a conclusão do processo, você receberá um prompt de sucesso que mostra o nome do novo pool de GPUs e o servidor host.
Atribua uma VM a um pool de recursos de GPU
Agora você pode atribuir uma VM a um pool de recursos de GPU. Você pode atribuir uma ou mais VMs a um pool de recursos de GPU em cluster e remover uma VM de um pool de recursos de GPU em cluster.
Siga estas etapas para atribuir uma VM existente a um pool de recursos de GPU usando o Windows Admin Center.
Observação
Você também precisa instalar drivers do fabricante da GPU dentro da VM para que os aplicativos na VM possam aproveitar a GPU atribuída a eles.
Na página Atribuir VM ao pool de GPUs, especifique o seguinte e selecione Atribuir:
- Nome do servidor
- Nome do pool de GPU
- Máquina virtual à qual você deseja atribuir a GPU do pool de GPUs.
Você também pode definir valores de configuração avançados para espaços de E/S mapeados em memória (MMIO) para determinar os requisitos de recursos para uma única GPU.
Após a conclusão do processo, você receberá um prompt de confirmação que mostra que você atribuiu com êxito a GPU do pool de recursos da GPU à VM, que é exibida em VMs atribuídas.
Para cancelar a atribuição de uma VM de um pool de recursos de GPU:
Na guia pools de GPU, selecione a GPU que você deseja cancelar a atribuição e, em seguida, selecione Cancelar atribuição de VM.
Na página Cancelar atribuição de VM do pool de GPU, na caixa de listagem Máquinas virtuais, especifique o nome da VM e selecione Cancelar atribuição.
Após a conclusão do processo, você receberá um aviso de sucesso informando que a VM foi desatribuída do pool de GPUs e, em Status de atribuição, a GPU mostrará Disponível (Não atribuída)..
Quando você inicia a VM, o cluster garante que a VM seja colocada em um servidor com recursos de GPU disponíveis desse pool em todo o cluster. O cluster também atribui a GPU à VM por meio do DDA, o que permite que a GPU seja acessada a partir de cargas de trabalho dentro da VM.
Fazer failover de uma VM com uma GPU atribuída
Para testar a capacidade do cluster de manter a carga de trabalho da GPU disponível, execute uma operação de drenagem no servidor em que a VM está sendo executada com uma GPU atribuída. Para drenar o servidor, siga as instruções em Procedimentos de manutenção do cluster de failover. O cluster reinicia a VM em outro servidor do cluster, desde que outro servidor tenha recursos de GPU disponíveis suficientes no pool que você criou.
Para testar a capacidade do cluster de manter a carga de trabalho da GPU disponível, execute uma operação de drenagem no servidor em que a VM está sendo executada com uma GPU atribuída. Para drenar o servidor, siga as instruções em Procedimentos de manutenção do cluster de failover. O cluster reinicia a VM em outro servidor do cluster, desde que outro servidor tenha recursos de GPU disponíveis suficientes no pool que você criou.
Conteúdo relacionado
Para obter mais informações sobre o uso de GPUs com suas VMs em cluster, consulte:
Para obter mais informações sobre como usar GPUs com suas VMs e particionamento de GPU, consulte: