Konfigurera GPU-övervakning med Container Insights

Artikel
10/15/2024

Container insights stöder övervakning av GPU-kluster från följande GPU-leverantörer:

NVIDIA
AMD

Containerinsikter börjar automatiskt övervaka GPU-användning på noder och GPU som begär poddar och arbetsbelastningar genom att samla in följande mått med 60 sekunders intervall och lagra dem i tabellen InsightMetrics .

Kommentar

När du har etablerat kluster med GPU-noder kontrollerar du att GPU-drivrutinen är installerad enligt vad som krävs av Azure Kubernetes Service (AKS) för att köra GPU-arbetsbelastningar. Containerinsikter samlar in GPU-mått via GPU-drivrutinspoddar som körs i noden.

Måttnamn	Måttdimension (taggar)	beskrivning
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Procentandel av tiden under den senaste exempelperioden (60 sekunder) under vilken GPU:n var upptagen/bearbetade aktivt för en container. Arbetscykeln är ett tal mellan 1 och 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Varje container kan ange gränser som en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Varje container kan begära en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Mängden GPU-minne i byte som är tillgängligt för användning för en specifik container.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Mängden GPU-minne i byte som används av en specifik container.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Antal GPU:er i en nod som kan användas av Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Totalt antal GPU:er i en nod.

* Baserat på Kubernetes uppströmsändringar samlas dessa mått inte längre in i rutan. Som en tillfällig snabbkorrigering uppgraderar du GPU-nodpoolen till den senaste versionen eller *-2022.06.08 eller senare för AKS. För Azure Arc-aktiverade Kubernetes aktiverar du funktionsporten DisableAcceleratorUsageMetrics=false i kubelet-konfigurationen av noden och startar om kubelet. När de överordnade ändringarna har nått allmän tillgänglighet fungerar inte längre den här korrigeringen.

Prestandadiagram för GPU

Containerinsikter innehåller förkonfigurerade diagram för måtten som angavs tidigare i tabellen som en GPU-arbetsbok för varje kluster. En beskrivning av de arbetsböcker som är tillgängliga för Container Insights finns i Arbetsböcker i Container Insights.

Nästa steg

Se Använda GPU:er för beräkningsintensiva arbetsbelastningar i Azure Kubernetes Service för att lära dig hur du distribuerar ett AKS-kluster som innehåller GPU-aktiverade noder.
Läs mer om GPU-optimerade VM-SKU:er i Azure.
Granska GPU-stöd i Kubernetes för att lära dig mer om kubernetes experimentellt stöd för hantering av GPU:er över en eller flera noder i ett kluster.

Dela via

Konfigurera GPU-övervakning med Container Insights

Prestandadiagram för GPU

Nästa steg

Feedback

Ytterligare resurser