Konfigurace monitorování GPU pomocí služby Container Insights
Container Insights podporuje monitorování clusterů GPU od následujících dodavatelů GPU:
Container Insights automaticky začne monitorovat využití GPU na uzlech a GPU, které požadují pody a úlohy, tím, že shromažďuje následující metriky v 60sekundových intervalech a ukládá je do tabulky InsightMetrics .
Poznámka:
Po zřízení clusterů s uzly GPU se ujistěte, že je ovladač GPU nainstalovaný podle požadavků služby Azure Kubernetes Service (AKS) pro spouštění úloh GPU. Přehledy kontejnerů shromažďují metriky GPU prostřednictvím podů ovladačů GPU spuštěných v uzlu.
Název metriky | Dimenze metriky (značky) | Popis |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Procento času v minulém ukázkovém období (60 sekund), během kterého bylo GPU zaneprázdněno/aktivně zpracovává kontejner. Pracovní cyklus je číslo mezi 1 a 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Každý kontejner může zadat omezení jako jeden nebo více GPU. Není možné požadovat ani omezit zlomek GPU. |
ContainerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Každý kontejner si může vyžádat jednu nebo více grafických procesorů. Není možné požadovat ani omezit zlomek GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Množství paměti GPU v bajtech, které lze použít pro konkrétní kontejner. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Velikost paměti GPU v bajtech používaných konkrétním kontejnerem |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Počet GPU v uzlu, který může Kubernetes používat. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Celkový počet GPU v uzlu |
* Na základě upstreamových změn Kubernetes se tyto metriky už neshromažďují. Jako dočasnou opravu hotfix upgradujte fond uzlů GPU na nejnovější verzi nebo *-2022.06.08 nebo vyšší. V případě Kubernetes s podporou Azure Arc povolte bránu DisableAcceleratorUsageMetrics=false
funkcí v konfiguraci kubeletu uzlu a restartujte kubelet. Jakmile upstreamové změny dosáhnou obecné dostupnosti, tato oprava už nebude fungovat.
Grafy výkonu GPU
Container Insights obsahuje předkonfigurované grafy pro metriky uvedené dříve v tabulce jako sešit GPU pro každý cluster. Popis sešitů dostupných pro přehledy kontejnerů najdete v tématu Sešity v přehledech kontejnerů.
Další kroky
- Informace o nasazení clusteru AKS, který zahrnuje uzly s podporou GPU, najdete v tématu Použití GPU pro úlohy náročné na výpočetní výkon ve službě Azure Kubernetes Service .
- Přečtěte si další informace o SKU virtuálních počítačů optimalizovaných pro GPU v Azure.
- Projděte si podporu GPU v Kubernetes a přečtěte si další informace o experimentální podpoře Kubernetes pro správu GPU v jednom nebo několika uzlech v clusteru.