Dela via


Konfigurera GPU-övervakning med Container Insights

Container insights stöder övervakning av GPU-kluster från följande GPU-leverantörer:

Containerinsikter börjar automatiskt övervaka GPU-användning på noder och GPU som begär poddar och arbetsbelastningar genom att samla in följande mått med 60 sekunders intervall och lagra dem i tabellen InsightMetrics .

Kommentar

När du har etablerat kluster med GPU-noder kontrollerar du att GPU-drivrutinen är installerad enligt vad som krävs av Azure Kubernetes Service (AKS) för att köra GPU-arbetsbelastningar. Containerinsikter samlar in GPU-mått via GPU-drivrutinspoddar som körs i noden.

Måttnamn Måttdimension (taggar) beskrivning
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Procentandel av tiden under den senaste exempelperioden (60 sekunder) under vilken GPU:n var upptagen/bearbetade aktivt för en container. Arbetscykeln är ett tal mellan 1 och 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Varje container kan ange gränser som en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Varje container kan begära en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Mängden GPU-minne i byte som är tillgängligt för användning för en specifik container.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Mängden GPU-minne i byte som används av en specifik container.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Antal GPU:er i en nod som kan användas av Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Totalt antal GPU:er i en nod.

* Baserat på Kubernetes uppströmsändringar samlas dessa mått inte längre in i rutan. Som en tillfällig snabbkorrigering uppgraderar du GPU-nodpoolen till den senaste versionen eller *-2022.06.08 eller senare för AKS. För Azure Arc-aktiverade Kubernetes aktiverar du funktionsporten DisableAcceleratorUsageMetrics=false i kubelet-konfigurationen av noden och startar om kubelet. När de överordnade ändringarna har nått allmän tillgänglighet fungerar inte längre den här korrigeringen.

Prestandadiagram för GPU

Containerinsikter innehåller förkonfigurerade diagram för måtten som angavs tidigare i tabellen som en GPU-arbetsbok för varje kluster. En beskrivning av de arbetsböcker som är tillgängliga för Container Insights finns i Arbetsböcker i Container Insights.

Nästa steg