Particionamento de GPU

Artigo
01/10/2025
Aplica-se a:

✅ Windows Server 2025

O particionamento de GPU permite que você compartilhe um dispositivo de GPU físico com várias máquinas virtuais (VMs). Com o particionamento de GPU ou virtualização de GPU, cada VM obtém uma fração dedicada da GPU em vez de toda a GPU.

O recurso de particionamento de GPU usa a interface Single Root IO Virtualization (SR-IOV), que fornece um limite de segurança apoiado por hardware com desempenho previsível para cada VM. Cada VM pode acessar apenas os recursos da GPU dedicados a elas e o particionamento de hardware seguro impede o acesso não autorizado por outras VMs.

O Windows Server introduz a migração ao vivo com particionamento de GPU. Há requisitos específicos para usar a migração ao vivo de particionamento de GPU. Além das práticas recomendadas de migração em direto, os hosts do cluster precisam ter processadores compatíveis com rastreamento de bits DMA da Unidade de Gerenciamento de Memória de Entrada/Saída (IOMMU). Por exemplo, processadores que suportam Intel VT-D ou AMD-Vi. Se você usar o Windows Server e a migração ao vivo sem processadores habilitados para IOMMU, as VMs serão reiniciadas automaticamente onde os recursos da GPU estiverem disponíveis.

O particionamento GPU foi projetado para servidores autônomos. Você pode migrar VMs em tempo real entre nós independentes durante paragens planeadas; no entanto, para clientes que necessitam de clustering para interrupções inesperadas, deve utilizar o Windows Server 2025 Datacenter.

Quando usar o particionamento de GPU

Algumas cargas de trabalho, como infraestrutura de desktop virtual (VDI), inteligência artificial (IA) e inferência de aprendizado de máquina (ML) exigem aceleração de GPU, o particionamento de GPU pode ajudar a reduzir o custo total de propriedade para sua infraestrutura geral.

Por exemplo:

Aplicativos VDI: os clientes de borda distribuída executam aplicativos básicos de produtividade, como o Microsoft Office e cargas de trabalho de visualização pesadas em gráficos em seus ambientes VDI, que exigem aceleração de GPU. Para essas cargas de trabalho, você pode obter a aceleração de GPU necessária via DDA ou particionamento de GPU. Com o particionamento de GPU, você pode criar várias partições e atribuir cada partição à VM que hospeda um ambiente VDI. O particionamento de GPU ajuda você a alcançar a densidade desejada e dimensionar o número de usuários suportados por uma ordem de magnitude.
Inferência com ML: os clientes em lojas de retalho e fábricas podem executar a inferência na extremidade, o que requer suporte de GPU para os seus servidores. Usando GPU em seus servidores, você pode executar modelos de ML para obter resultados rápidos que podem ser acionados antes que os dados sejam enviados para a nuvem. O conjunto de dados completo pode, opcionalmente, ser transferido para continuar a treinar novamente e melhorar seus modelos de ML. Junto com o DDA onde você atribui uma GPU física inteira a uma VM, o particionamento de GPU permite que você execute vários aplicativos de inferência em paralelo na mesma GPU, mas em partições físicas separadas, utilizando assim a GPU ao máximo.

Sistemas operativos convidados suportados

O particionamento de GPU no Windows Server 2025 e posterior suporta estes sistemas operativos convidados:

Windows 10 ou posterior
Windows 10 Enterprise multi-sessão ou posterior
Windows Server 2019 ou posterior
Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS

GPUs suportadas

As seguintes GPUs suportam particionamento de GPU:

NVIDIA A2
NVIDIA A10
NVIDIA A16
NVIDIA A40
NVIDIA L2
NVIDIA L4
NVIDIA L40
NVIDIA L40S

Observação

Atualmente, o driver NVIDIA não suporta particionamento de GPU para migração ao vivo.

Recomendamos que você trabalhe com seus parceiros OEM (Original Equipment Manufacturer) e IHVs (GPU Independent Hardware Vendors) para planejar, encomendar e configurar os sistemas para as cargas de trabalho desejadas com as configurações apropriadas e o software necessário. No entanto, suportamos mais GPUs se você quiser usar a aceleração de GPU via Discrete Device Assignment (DDA). Entre em contato com seus parceiros OEM e IHVs para obter uma lista de GPUs que suportam DDA. Para obter mais informações sobre como usar a aceleração de GPU via DDA, consulte Discrete Device Assignment (DDA).

Para obter o melhor desempenho, recomendamos que você crie uma configuração homogênea para GPUs em todos os servidores do cluster. Uma configuração homogênea consiste em instalar a mesma marca e modelo da GPU e configurar a mesma contagem de partições nas GPUs em todos os servidores do cluster. Por exemplo, em um cluster de dois servidores com uma ou mais GPUs instaladas, todas as GPUs devem ter a mesma marca, modelo e tamanho. A contagem de partições em cada GPU também deve corresponder.

Limitações

Considere as seguintes limitações ao usar o recurso de particionamento de GPU:

O particionamento de GPU não é suportado se a sua configuração não for homogénea. Eis alguns exemplos de configurações não suportadas:
- Mistura de GPUs de diferentes fornecedores no mesmo cluster.
- Usando diferentes modelos de GPU de diferentes famílias de produtos do mesmo fornecedor no mesmo cluster.
Não é possível atribuir uma GPU física como Atribuição de Dispositivo Discreto (DDA) ou GPU particionável. Você pode atribuí-lo como DDA ou como GPU particionável, mas não ambos.
Você pode atribuir apenas uma única partição GPU a uma VM.
As partições são atribuídas automaticamente às VMs. Não é possível escolher uma partição específica para uma VM específica.
Você pode particionar sua GPU usando o Windows Admin Center ou o PowerShell. Recomendamos que você use o Windows Admin Center para configurar e atribuir partições GPU. O Windows Admin Center valida automaticamente para uma configuração homogênea das GPUs em todos os servidores do cluster. Ele fornece avisos e erros apropriados para tomar qualquer ação corretiva necessária.
Se estiver usando o PowerShell para provisionar o particionamento de GPU, você deverá executar as etapas de provisionamento em cada servidor do cluster. Você deve garantir manualmente que a configuração homogênea seja mantida para GPUs em todos os servidores do cluster.
Ao migrar uma máquina virtual ao vivo com uma partição GPU atribuída, a migração ao vivo Hyper-V recorre automaticamente ao uso de TCP/IP com compressão. A migração de uma máquina virtual tem o efeito potencial de aumentar a utilização da CPU de um host. Além disso, as migrações ao vivo podem levar mais tempo do que com máquinas virtuais sem partições de GPU conectadas.

Para obter mais informações sobre como usar GPUs com suas VMs e particionamento de GPU, consulte:

Partilhar via

Particionamento de GPU

Quando usar o particionamento de GPU

Sistemas operativos convidados suportados

GPUs suportadas

Limitações

Comentários

Recursos adicionais

Partilhar via

Particionamento de GPU

Quando usar o particionamento de GPU

Sistemas operativos convidados suportados

GPUs suportadas

Limitações

Conteúdo relacionado

Comentários

Recursos adicionais