Partilhar via


Usar GPUs com VMs clusterizadas

Aplica-se a: Azure Local, versão 22H2

Você pode incluir unidades de processamento gráfico (GPUs) em seus clusters para fornecer aceleração de GPU para cargas de trabalho em execução em VMs clusterizadas. A aceleração da GPU pode ser fornecida através da Atribuição de Dispositivo Discreto (DDA), que lhe permite dedicar uma ou mais GPUs físicas a uma VM, ou através do particionamento de GPU. As VMs clusterizadas podem tirar proveito da aceleração da GPU e dos recursos de clustering, como alta disponibilidade via failover. A migração ao vivo de máquinas virtuais (VMs) não é suportada atualmente, mas as VMs podem ser reiniciadas automaticamente e colocadas onde os recursos da GPU estão disponíveis se houver uma falha.

Neste artigo, você aprenderá a usar GPUs com VMs clusterizadas para fornecer aceleração de GPU para cargas de trabalho usando a Atribuição de Dispositivo Discreto. Este artigo orienta você na preparação do cluster, na atribuição de uma GPU a uma VM de cluster e no failover dessa VM usando o Windows Admin Center e o PowerShell.

Para obter informações sobre como gerenciar GPUs no Azure Local, versão 23H2, consulte Preparar GPUs para o Azure Local.

Pré-requisitos

Há vários requisitos e coisas a considerar antes de começar a usar GPUs com VMs clusterizadas:

  • Você precisa de um cluster do Azure Local executando o Azure Local, versão 22H2.
  • Você precisa de um cluster de failover do Windows Server executando o Windows Server 2025 ou posterior.
  • Você deve instalar a mesma marca e modelo das GPUs em todos os servidores do cluster.

  • Revise e siga as instruções do fabricante da GPU para instalar os drivers e o software necessários em cada servidor do cluster.

  • Dependendo do seu fornecedor de hardware, você também pode precisar configurar quaisquer requisitos de licenciamento de GPU.

  • Você precisa de uma máquina com o Windows Admin Center instalado. Esta máquina pode ser um dos nós do cluster.

Observação

O seu sistema deve ser suportado pela solução Azure local com suporte para GPU. Para procurar opções, visite o Catálogo Local do Azure.

Preparar o cluster

Quando os pré-requisitos estiverem concluídos, você poderá preparar o cluster para usar GPUs com VMs clusterizadas.

A preparação do cluster envolve a criação de um pool de recursos que contém as GPUs disponíveis para atribuição a VMs. O cluster usa esse pool para determinar o posicionamento da VM para todas as VMs iniciadas ou movidas atribuídas ao pool de recursos da GPU.

Usando o Windows Admin Center, siga estas etapas para preparar o cluster para usar GPUs com VMs clusterizadas.

Para preparar o cluster e atribuir uma VM a um pool de recursos de GPU:

  1. Inicie o Windows Admin Center e verifique se a extensão GPUs já está instalada.

  2. Selecione Cluster Manager no menu suspenso superior e conecte-se ao seu cluster.

  3. No menu de Configurações, selecione Extensões>GPUs.

  4. No menu Ferramentas, em Extensões , selecione GPUs para abrir a ferramenta.

    Captura de ecrã da ferramenta GPU no Windows Admin Center.

  5. Na página principal da ferramenta específica, selecione o separador pools de GPU e depois selecione Criar pool de GPU.

    Captura de ecrã da página Criar pools de GPU no Windows Admin Center.

  6. Na página Novo pool de GPUs, especifique o seguinte e selecione Salvar:

    1. Nome do Servidor
    2. pool de GPUs nome
    3. GPUs que pretendes adicionar ao pool

    Captura de tela da página Novo pool de GPUs no Windows Admin Center para especificar servidores, nome do pool e GPUs.

    Após a conclusão do processo, você receberá um prompt de êxito que mostra o nome do novo pool de GPUs e do servidor host.

Atribuir uma VM a um pool de recursos de GPU

Agora você pode atribuir uma VM a um pool de recursos de GPU. Você pode atribuir uma ou mais VMs a um pool de recursos de GPU clusterizado e remover uma VM de um pool de recursos de GPU clusterizada.

Siga estas etapas para atribuir uma VM existente a um pool de recursos de GPU usando o Windows Admin Center.

Observação

Você também precisa instalar drivers do fabricante da GPU dentro da VM para que os aplicativos na VM possam aproveitar a GPU atribuída a eles.

  1. Na página Atribuir VM ao pool de GPUs, especifique o seguinte e, em seguida, selecione Atribuir:

    1. Nome do servidor
    2. pool de GPUs nome
    3. máquina virtual a que pretende atribuir a GPU do pool de GPUs.

    Você também pode definir valores de configuração avançados para espaços de E/S mapeados na memória (MMIO) para determinar os requisitos de recursos para uma única GPU.

    Captura de tela da página Atribuir VM ao pool de GPUs no Windows Admin Center onde você atribui uma VM a uma GPU a partir do pool de GPUs.

    Após a conclusão do processo, receberás um aviso de confirmação que mostra teres atribuído com êxito a GPU do grupo de recursos da GPU à máquina virtual, exibida em Máquinas Virtuais Atribuídas.

    Captura de ecrã da mensagem de confirmação mostrando a GPU atribuída a uma VM e a VM exibida em VMs atribuídas.

Para desatribuir uma VM de um pool de recursos de GPU:

  1. Na aba pools de GPU, selecione a GPU que deseja desatribuir e, em seguida, selecione Cancelar atribuição de VM.

  2. Na página Cancelar atribuição de VM do pool de GPUs, na lista Máquinas virtuais, especifique o nome da VM e, em seguida, selecione Cancelar atribuição.

    Captura de tela da página Cancelar atribuição de VM do pool de GPU mostrando que a VM não foi atribuída.

    Após a conclusão do processo, receberá uma mensagem de êxito informando que a VM foi desatribuída do pool de GPUs e, em estado de Atribuição a GPU mostra Disponível (Não atribuído).

Quando você inicia a VM, o cluster garante que a VM seja colocada em um servidor com recursos de GPU disponíveis desse pool em todo o cluster. O cluster também atribui a GPU à VM por meio de DDA, o que permite que a GPU seja acessada a partir de cargas de trabalho dentro da VM.

Failover de uma VM com uma GPU atribuída

Para testar a capacidade do cluster de manter a carga de trabalho da GPU disponível, execute uma operação de drenagem no servidor em que a VM está sendo executada com uma GPU atribuída. Para drenar o servidor, siga as instruções em Procedimentos de manutenção de cluster de failover. O cluster reinicia a VM em outro servidor no cluster, desde que outro servidor tenha recursos de GPU disponíveis suficientes no pool que você criou.

Para testar a capacidade do cluster de manter a carga de trabalho da GPU disponível, execute uma operação de drenagem no servidor em que a VM está sendo executada com uma GPU atribuída. Para esvaziar o servidor, siga as instruções em Procedimentos de manutenção de cluster de failover. O cluster reinicia a VM em outro servidor no cluster, desde que outro servidor tenha recursos de GPU disponíveis suficientes no pool que você criou.

Para obter mais informações sobre como usar GPUs com suas VMs clusterizadas, consulte:

Para obter mais informações sobre como usar GPUs com suas VMs e particionamento de GPU, consulte: