Configuración de la supervisión de GPU con Container insights
Container Insights admite la supervisión de clústeres de GPU de los siguientes proveedores de GPU:
Container Insights inicia automáticamente la supervisión del uso de GPU en los nodos y de los pods y las áreas de trabajo que solicitan GPU mediante la recopilación de las métricas siguientes a intervalos de 60 segundos y su almacenamiento en la tabla InsightMetrics.
Nota
Después de aprovisionar clústeres con nodos de GPU, asegúrese de que el controlador de GPU está instalado según lo requiera Azure Kubernetes Service (AKS) para ejecutar cargas de trabajo de GPU. Container Insights recopila métricas de GPU a través de los pods del controlador de GPU que se ejecutan en el nodo.
Nombre de métrica | Dimensión de métrica (etiquetas) | Descripción |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Porcentaje de tiempo del período de muestra anterior (60 segundos) durante el cual la GPU estuvo ocupada o realizando un procesamiento activo para un contenedor. El ciclo de servicio es un número comprendido entre 1 y 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Cada contenedor puede especificar límites para una o varias GPU. No es posible solicitar ni limitar una fracción de GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Cada contenedor puede solicitar una o varias GPU. No es posible solicitar ni limitar una fracción de GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Cantidad de memoria de GPU en bytes disponible para su uso en un contenedor específico. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Cantidad de memoria de GPU en bytes que usa un contenedor específico. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Número de GPU en un nodo que puede usar Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Número total de GPU en un nodo. |
* En función de los cambios ascendentes de Kubernetes, estas métricas ya no se recopilan de forma predeterminada. Como corrección temporal, para AKS, actualice el grupo de nodos de GPU a la versión más reciente o *-2022.06.08 o posterior. Para Kubernetes habilitado para Azure Arc, habilite la puerta DisableAcceleratorUsageMetrics=false
de características en la configuración de kubelet del nodo y reinicie kubelet. Una vez que los cambios ascendentes alcancen la disponibilidad general, esta corrección dejará de funcionar.
Gráficos de rendimiento de GPU
Container Insights incluye gráficos preconfigurados para las métricas indicadas anteriormente en la tabla como un libro de GPU para cada clúster. Para obtener una descripción de los libros disponibles para Container Insights, consulte Libros en Container Insights.
Pasos siguientes
- Consulte Uso de GPU para cargas de trabajo de cálculo intensivo en Azure Kubernetes Service (AKS) para aprender a implementar un clúster de AKS que incluya nodos habilitados para GPU.
- Obtenga más información sobre las SKU de máquinas virtuales optimizadas para GPU en Azure.
- Revise la compatibilidad con GPU en Kubernetes para obtener más información sobre la compatibilidad experimental de Kubernetes con la administración de GPU en uno o varios nodos de un clúster.