Konfigurowanie monitorowania procesora GPU za pomocą usługi Container Insights
Usługa Container Insights obsługuje monitorowanie klastrów procesorów GPU od następujących dostawców procesora GPU:
Usługa Container Insights automatycznie rozpoczyna monitorowanie użycia procesora GPU w węzłach i procesorach GPU żądających zasobników i obciążeń, zbierając następujące metryki w 60-sekundowych odstępach czasu i przechowując je w tabeli InsightMetrics .
Uwaga
Po aprowizacji klastrów za pomocą węzłów procesora GPU upewnij się, że sterownik procesora GPU jest zainstalowany zgodnie z wymaganiami usługi Azure Kubernetes Service (AKS) do uruchamiania obciążeń procesora GPU. Szczegółowe informacje o kontenerze zbierają metryki procesora GPU za pośrednictwem zasobników sterowników procesora GPU uruchomionych w węźle.
Nazwa metryki | Wymiar metryki (tagi) | opis |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Procent czasu w poprzednim okresie próby (60 sekund), w którym procesor GPU był zajęty/aktywnie przetwarzany dla kontenera. Cykl dyżurów jest liczbą z zakresu od 1 do 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Każdy kontener może określać limity jako co najmniej jeden procesor GPU. Nie można zażądać ani ograniczyć części procesora GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Każdy kontener może zażądać co najmniej jednego procesora GPU. Nie można zażądać ani ograniczyć części procesora GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Ilość pamięci procesora GPU w bajtach dostępnych do użycia dla określonego kontenera. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Ilość pamięci procesora GPU w bajtach używanych przez określony kontener. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Liczba procesorów GPU w węźle, które mogą być używane przez platformę Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Łączna liczba procesorów GPU w węźle. |
* Na podstawie zmian nadrzędnych platformy Kubernetes te metryki nie są już zbierane w pudełku. Jako tymczasowa poprawka dla usługi AKS uaktualnij pulę węzłów procesora GPU do najnowszej wersji lub *-2022.06.08 lub nowszej. W przypadku platformy Kubernetes z włączoną usługą Azure Arc włącz bramę DisableAcceleratorUsageMetrics=false
funkcji w konfiguracji kubelet węzła i uruchom ponownie narzędzie kubelet. Gdy zmiany nadrzędne osiągną ogólną dostępność, ta poprawka nie będzie już działać.
Wykresy wydajności procesora GPU
Szczegółowe informacje o kontenerze obejmują wstępnie skonfigurowane wykresy dla metryk wymienionych wcześniej w tabeli jako skoroszyt procesora GPU dla każdego klastra. Aby uzyskać opis skoroszytów dostępnych dla szczegółowych informacji o kontenerze, zobacz Skoroszyty w usłudze Container Insights.
Następne kroki
- Zobacz Use GPU for compute-intensive workloads on Azure Kubernetes Service (Używanie procesorów GPU na potrzeby obciążeń intensywnie korzystających z obliczeń w usłudze Azure Kubernetes Service ), aby dowiedzieć się, jak wdrożyć klaster usługi AKS obejmujący węzły z obsługą procesora GPU.
- Dowiedz się więcej o jednostkach SKU maszyn wirtualnych zoptymalizowanych pod kątem procesora GPU na platformie Azure.
- Zapoznaj się z obsługą procesora GPU na platformie Kubernetes , aby dowiedzieć się więcej o eksperymentalnej obsłudze platformy Kubernetes na potrzeby zarządzania procesorami GPU w co najmniej jednym węźle w klastrze.