Configurar a monitorização da GPU com o Container Insights

Artigo
10/15/2024

O Container insights oferece suporte ao monitoramento de clusters de GPU dos seguintes fornecedores de GPU:

NVIDIA
AMD

O Container insights começa automaticamente a monitorar o uso da GPU em nós e GPU solicitando pods e cargas de trabalho coletando as métricas a seguir em intervalos de 60 segundos e armazenando-as na tabela InsightMetrics .

Nota

Depois de provisionar clusters com nós de GPU, verifique se o driver da GPU está instalado conforme exigido pelo Serviço Kubernetes do Azure (AKS) para executar cargas de trabalho de GPU. As informações de contêiner coletam métricas de GPU por meio de pods de driver de GPU em execução no nó.

Nome da métrica	Dimensão métrica (tags)	Description
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Porcentagem de tempo durante o último período de amostra (60 segundos) durante o qual a GPU esteve ocupada/processando ativamente para um contêiner. O ciclo de trabalho é um número entre 1 e 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Cada contêiner pode especificar limites como uma ou mais GPUs. Não é possível solicitar ou limitar uma fração de uma GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Cada contêiner pode solicitar uma ou mais GPUs. Não é possível solicitar ou limitar uma fração de uma GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Quantidade de memória GPU em bytes disponíveis para uso em um contêiner específico.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Quantidade de memória GPU em bytes usada por um contêiner específico.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Número de GPUs em um nó que podem ser usadas pelo Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Número total de GPUs em um nó.

* Com base nas alterações upstream do Kubernetes, essas métricas não são mais coletadas prontamente. Como um hotfix temporário, para o AKS, atualize o pool de nós da GPU para a versão mais recente ou *-2022.06.08 ou superior. Para o Kubernetes habilitado para Azure Arc, habilite a porta DisableAcceleratorUsageMetrics=false de recurso na configuração do kubelet do nó e reinicie o kubelet. Depois que as alterações upstream atingirem a disponibilidade geral, essa correção não funcionará mais.

Gráficos de desempenho da GPU

O Container insights inclui gráficos pré-configurados para as métricas listadas anteriormente na tabela como uma pasta de trabalho de GPU para cada cluster. Para obter uma descrição das pastas de trabalho disponíveis para Insights de contêiner, consulte Pastas de trabalho em Insights de contêiner.

Próximos passos

Consulte Usar GPUs para cargas de trabalho de computação intensiva no Serviço Kubernetes do Azure para saber como implantar um cluster AKS que inclui nós habilitados para GPU.
Saiba mais sobre SKUs de VM otimizadas para GPU no Azure.
Analise o suporte a GPU no Kubernetes para saber mais sobre o suporte experimental do Kubernetes para gerenciar GPUs em um ou mais nós em um cluster.

Partilhar via

Configurar a monitorização da GPU com o Container Insights

Gráficos de desempenho da GPU

Próximos passos

Comentários

Recursos adicionais