Konfigurace monitorování GPU pomocí služby Container Insights

Článek
10/15/2024

Container Insights podporuje monitorování clusterů GPU od následujících dodavatelů GPU:

NVIDIA
AMD

Container Insights automaticky začne monitorovat využití GPU na uzlech a GPU, které požadují pody a úlohy, tím, že shromažďuje následující metriky v 60sekundových intervalech a ukládá je do tabulky InsightMetrics .

Poznámka:

Po zřízení clusterů s uzly GPU se ujistěte, že je ovladač GPU nainstalovaný podle požadavků služby Azure Kubernetes Service (AKS) pro spouštění úloh GPU. Přehledy kontejnerů shromažďují metriky GPU prostřednictvím podů ovladačů GPU spuštěných v uzlu.

Název metriky	Dimenze metriky (značky)	Popis
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Procento času v minulém ukázkovém období (60 sekund), během kterého bylo GPU zaneprázdněno/aktivně zpracovává kontejner. Pracovní cyklus je číslo mezi 1 a 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Každý kontejner může zadat omezení jako jeden nebo více GPU. Není možné požadovat ani omezit zlomek GPU.
ContainerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Každý kontejner si může vyžádat jednu nebo více grafických procesorů. Není možné požadovat ani omezit zlomek GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Množství paměti GPU v bajtech, které lze použít pro konkrétní kontejner.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Velikost paměti GPU v bajtech používaných konkrétním kontejnerem
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Počet GPU v uzlu, který může Kubernetes používat.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Celkový počet GPU v uzlu

* Na základě upstreamových změn Kubernetes se tyto metriky už neshromažďují. Jako dočasnou opravu hotfix upgradujte fond uzlů GPU na nejnovější verzi nebo *-2022.06.08 nebo vyšší. V případě Kubernetes s podporou Azure Arc povolte bránu DisableAcceleratorUsageMetrics=false funkcí v konfiguraci kubeletu uzlu a restartujte kubelet. Jakmile upstreamové změny dosáhnou obecné dostupnosti, tato oprava už nebude fungovat.

Grafy výkonu GPU

Container Insights obsahuje předkonfigurované grafy pro metriky uvedené dříve v tabulce jako sešit GPU pro každý cluster. Popis sešitů dostupných pro přehledy kontejnerů najdete v tématu Sešity v přehledech kontejnerů.

Další kroky

Informace o nasazení clusteru AKS, který zahrnuje uzly s podporou GPU, najdete v tématu Použití GPU pro úlohy náročné na výpočetní výkon ve službě Azure Kubernetes Service .
Přečtěte si další informace o SKU virtuálních počítačů optimalizovaných pro GPU v Azure.
Projděte si podporu GPU v Kubernetes a přečtěte si další informace o experimentální podpoře Kubernetes pro správu GPU v jednom nebo několika uzlech v clusteru.

Sdílet prostřednictvím

Konfigurace monitorování GPU pomocí služby Container Insights

Grafy výkonu GPU

Další kroky

Váš názor

Další materiály