Compartir a través de


Configuración de la supervisión de GPU con Container insights

Container Insights admite la supervisión de clústeres de GPU de los siguientes proveedores de GPU:

Container Insights inicia automáticamente la supervisión del uso de GPU en los nodos y de los pods y las áreas de trabajo que solicitan GPU mediante la recopilación de las métricas siguientes a intervalos de 60 segundos y su almacenamiento en la tabla InsightMetrics.

Nota

Después de aprovisionar clústeres con nodos de GPU, asegúrese de que el controlador de GPU está instalado según lo requiera Azure Kubernetes Service (AKS) para ejecutar cargas de trabajo de GPU. Container Insights recopila métricas de GPU a través de los pods del controlador de GPU que se ejecutan en el nodo.

Nombre de métrica Dimensión de métrica (etiquetas) Descripción
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Porcentaje de tiempo del período de muestra anterior (60 segundos) durante el cual la GPU estuvo ocupada o realizando un procesamiento activo para un contenedor. El ciclo de servicio es un número comprendido entre 1 y 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Cada contenedor puede especificar límites para una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Cada contenedor puede solicitar una o varias GPU. No es posible solicitar ni limitar una fracción de GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Cantidad de memoria de GPU en bytes disponible para su uso en un contenedor específico.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Cantidad de memoria de GPU en bytes que usa un contenedor específico.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Número de GPU en un nodo que puede usar Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Número total de GPU en un nodo.

* En función de los cambios ascendentes de Kubernetes, estas métricas ya no se recopilan de forma predeterminada. Como corrección temporal, para AKS, actualice el grupo de nodos de GPU a la versión más reciente o *-2022.06.08 o posterior. Para Kubernetes habilitado para Azure Arc, habilite la puerta DisableAcceleratorUsageMetrics=false de características en la configuración de kubelet del nodo y reinicie kubelet. Una vez que los cambios ascendentes alcancen la disponibilidad general, esta corrección dejará de funcionar.

Gráficos de rendimiento de GPU

Container Insights incluye gráficos preconfigurados para las métricas indicadas anteriormente en la tabla como un libro de GPU para cada clúster. Para obtener una descripción de los libros disponibles para Container Insights, consulte Libros en Container Insights.

Pasos siguientes