Sdílet prostřednictvím


Konfigurace monitorování GPU pomocí služby Container Insights

Container Insights podporuje monitorování clusterů GPU od následujících dodavatelů GPU:

Container Insights automaticky začne monitorovat využití GPU na uzlech a GPU, které požadují pody a úlohy, tím, že shromažďuje následující metriky v 60sekundových intervalech a ukládá je do tabulky InsightMetrics .

Poznámka:

Po zřízení clusterů s uzly GPU se ujistěte, že je ovladač GPU nainstalovaný podle požadavků služby Azure Kubernetes Service (AKS) pro spouštění úloh GPU. Přehledy kontejnerů shromažďují metriky GPU prostřednictvím podů ovladačů GPU spuštěných v uzlu.

Název metriky Dimenze metriky (značky) Popis
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Procento času v minulém ukázkovém období (60 sekund), během kterého bylo GPU zaneprázdněno/aktivně zpracovává kontejner. Pracovní cyklus je číslo mezi 1 a 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Každý kontejner může zadat omezení jako jeden nebo více GPU. Není možné požadovat ani omezit zlomek GPU.
ContainerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Každý kontejner si může vyžádat jednu nebo více grafických procesorů. Není možné požadovat ani omezit zlomek GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Množství paměti GPU v bajtech, které lze použít pro konkrétní kontejner.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Velikost paměti GPU v bajtech používaných konkrétním kontejnerem
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Počet GPU v uzlu, který může Kubernetes používat.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Celkový počet GPU v uzlu

* Na základě upstreamových změn Kubernetes se tyto metriky už neshromažďují. Jako dočasnou opravu hotfix upgradujte fond uzlů GPU na nejnovější verzi nebo *-2022.06.08 nebo vyšší. V případě Kubernetes s podporou Azure Arc povolte bránu DisableAcceleratorUsageMetrics=false funkcí v konfiguraci kubeletu uzlu a restartujte kubelet. Jakmile upstreamové změny dosáhnou obecné dostupnosti, tato oprava už nebude fungovat.

Grafy výkonu GPU

Container Insights obsahuje předkonfigurované grafy pro metriky uvedené dříve v tabulce jako sešit GPU pro každý cluster. Popis sešitů dostupných pro přehledy kontejnerů najdete v tématu Sešity v přehledech kontejnerů.

Další kroky