使用容器深入解析來設定 GPU 監視
容器深入解析支援監視來自下列 GPU 廠商的 GPU 叢集:
容器深入解析會以 60 秒間隔收集下列計量,並將其儲存在 InsightMetrics 資料表中,以自動開始監視節點上的 GPU 使用量,以及要求 Pod 和工作負載的 GPU。
注意
在使用 GPU 節點佈建叢集之後,請確定依照 Azure Kubernetes 服務 (AKS) 的要求安裝 GPU 驅動程式以執行 GPU 工作負載。 容器深入解析會透過節點中執行的 GPU 驅動程式 Pod 收集 GPU 計量。
度量名稱 | 計量維度 (標籤) | 描述 |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId、container.azm.ms/clusterName、containerName、gpuId、gpuModel、gpuVendor | 過去範例期間 (60 秒) 容器 GPU 忙碌/主動處理的時間百分比。 工作週期是介於 1 與 100 之間的數字。 |
containerGpuLimits | container.azm.ms/clusterId、container.azm.ms/clusterName、containerName | 每個容器都可以將限制指定為一或多個 GPU。 無法要求或限制 GPU 的一小部分。 |
containerGpuRequests | container.azm.ms/clusterId、container.azm.ms/clusterName、containerName | 每個容器都可以要求一或多個 GPU。 無法要求或限制 GPU 的一小部分。 |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId、container.azm.ms/clusterName、containerName、gpuId、gpuModel、gpuVendor | 可用於特定容器的 GPU 記憶體數量 (以位元組為單位)。 |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId、container.azm.ms/clusterName、containerName、gpuId、gpuModel、gpuVendor | 特定容器所使用的 GPU 記憶體數量 (以位元組為單位)。 |
nodeGpuAllocatable | container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor | 節點中 Kubernetes 可以使用的 GPU 數目。 |
nodeGpuCapacity | container.azm.ms/clusterId、container.azm.ms/clusterName、gpuVendor | 節點中的 GPU 總數。 |
* 根據 Kubernetes 上游變更,已不再立即收集這些計量。 作為 AKS 的暫時 Hotfix,請將 GPU 節點集區升級至最新版本或 *-2022.06.08 或更高版本。 針對已啟用 Azure Ar 的 Kubernetes,請在節點的 kubelet 設定中啟用閘道 DisableAcceleratorUsageMetrics=false
,然後重新啟動 kubelet。 上游變更正式發行後,此修正程式將無法再運作。
GPU 效能圖表
容器深入解析包含資料表稍早所列計量的預先設定圖表,作為每個叢集的 GPU 活頁簿。 如需容器深入解析可用的活頁簿描述,請參閱容器深入解析中的活頁簿。
下一步
- 請參閱針對 Azure Kubernetes Service 上大量計算的工作負載使用 GPU,以了解如何部署包含已啟用 GPU 的節點的 AKS 叢集。
- 深入了解 Azure 中的 GPU 最佳化 VM SKU。
- 檢閱 Kubernetes 中的 GPU 支援,以深入了解用於跨叢集中一或多個節點管理 GPU 的 Kubernetes 實驗性支援。