Configuración de la supervisión de GPU con Container insights

Artículo
11/05/2024

Container Insights admite la supervisión de clústeres de GPU de los siguientes proveedores de GPU:

NVIDIA
AMD

Container Insights inicia automáticamente la supervisión del uso de GPU en los nodos y de los pods y las áreas de trabajo que solicitan GPU mediante la recopilación de las métricas siguientes a intervalos de 60 segundos y su almacenamiento en la tabla InsightMetrics.

Nota

Después de aprovisionar clústeres con nodos de GPU, asegúrese de que el controlador de GPU está instalado según lo requiera Azure Kubernetes Service (AKS) para ejecutar cargas de trabajo de GPU. Container Insights recopila métricas de GPU a través de los pods del controlador de GPU que se ejecutan en el nodo.

Nombre de métrica	Dimensión de métrica (etiquetas)	Descripción
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Porcentaje de tiempo del período de muestra anterior (60 segundos) durante el cual la GPU estuvo ocupada o realizando un procesamiento activo para un contenedor. El ciclo de servicio es un número comprendido entre 1 y 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Cada contenedor puede especificar límites para una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Cada contenedor puede solicitar una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Cantidad de memoria de GPU en bytes disponible para su uso en un contenedor específico.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Cantidad de memoria de GPU en bytes que usa un contenedor específico.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Número de GPU en un nodo que puede usar Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Número total de GPU en un nodo.

* En función de los cambios ascendentes de Kubernetes, estas métricas ya no se recopilan de forma predeterminada. Como corrección temporal, para AKS, actualice el grupo de nodos de GPU a la versión más reciente o *-2022.06.08 o posterior. Para Kubernetes habilitado para Azure Arc, habilite la puerta DisableAcceleratorUsageMetrics=false de características en la configuración de kubelet del nodo y reinicie kubelet. Una vez que los cambios ascendentes alcancen la disponibilidad general, esta corrección dejará de funcionar.

Gráficos de rendimiento de GPU

Container Insights incluye gráficos preconfigurados para las métricas indicadas anteriormente en la tabla como un libro de GPU para cada clúster. Para obtener una descripción de los libros disponibles para Container Insights, consulte Libros en Container Insights.

Pasos siguientes

Consulte Uso de GPU para cargas de trabajo de cálculo intensivo en Azure Kubernetes Service (AKS) para aprender a implementar un clúster de AKS que incluya nodos habilitados para GPU.
Obtenga más información sobre las SKU de máquinas virtuales optimizadas para GPU en Azure.
Revise la compatibilidad con GPU en Kubernetes para obtener más información sobre la compatibilidad experimental de Kubernetes con la administración de GPU en uno o varios nodos de un clúster.

Compartir a través de

Configuración de la supervisión de GPU con Container insights

Gráficos de rendimiento de GPU

Pasos siguientes

Comentarios

Recursos adicionales