Udostępnij za pośrednictwem


Konfigurowanie monitorowania procesora GPU za pomocą usługi Container Insights

Usługa Container Insights obsługuje monitorowanie klastrów procesorów GPU od następujących dostawców procesora GPU:

Usługa Container Insights automatycznie rozpoczyna monitorowanie użycia procesora GPU w węzłach i procesorach GPU żądających zasobników i obciążeń, zbierając następujące metryki w 60-sekundowych odstępach czasu i przechowując je w tabeli InsightMetrics .

Uwaga

Po aprowizacji klastrów za pomocą węzłów procesora GPU upewnij się, że sterownik procesora GPU jest zainstalowany zgodnie z wymaganiami usługi Azure Kubernetes Service (AKS) do uruchamiania obciążeń procesora GPU. Szczegółowe informacje o kontenerze zbierają metryki procesora GPU za pośrednictwem zasobników sterowników procesora GPU uruchomionych w węźle.

Nazwa metryki Wymiar metryki (tagi) opis
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Procent czasu w poprzednim okresie próby (60 sekund), w którym procesor GPU był zajęty/aktywnie przetwarzany dla kontenera. Cykl dyżurów jest liczbą z zakresu od 1 do 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Każdy kontener może określać limity jako co najmniej jeden procesor GPU. Nie można zażądać ani ograniczyć części procesora GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Każdy kontener może zażądać co najmniej jednego procesora GPU. Nie można zażądać ani ograniczyć części procesora GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Ilość pamięci procesora GPU w bajtach dostępnych do użycia dla określonego kontenera.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Ilość pamięci procesora GPU w bajtach używanych przez określony kontener.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Liczba procesorów GPU w węźle, które mogą być używane przez platformę Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Łączna liczba procesorów GPU w węźle.

* Na podstawie zmian nadrzędnych platformy Kubernetes te metryki nie są już zbierane w pudełku. Jako tymczasowa poprawka dla usługi AKS uaktualnij pulę węzłów procesora GPU do najnowszej wersji lub *-2022.06.08 lub nowszej. W przypadku platformy Kubernetes z włączoną usługą Azure Arc włącz bramę DisableAcceleratorUsageMetrics=false funkcji w konfiguracji kubelet węzła i uruchom ponownie narzędzie kubelet. Gdy zmiany nadrzędne osiągną ogólną dostępność, ta poprawka nie będzie już działać.

Wykresy wydajności procesora GPU

Szczegółowe informacje o kontenerze obejmują wstępnie skonfigurowane wykresy dla metryk wymienionych wcześniej w tabeli jako skoroszyt procesora GPU dla każdego klastra. Aby uzyskać opis skoroszytów dostępnych dla szczegółowych informacji o kontenerze, zobacz Skoroszyty w usłudze Container Insights.

Następne kroki