GPU-monitoring configureren met Container Insights
Container Insights ondersteunt het bewaken van GPU-clusters van de volgende GPU-leveranciers:
Container insights begint automatisch met het bewaken van GPU-gebruik op knooppunten en GPU die pods en workloads aanvraagt door de volgende metrische gegevens te verzamelen met intervallen van 60 seconden en deze op te slaan in de tabel InsightMetrics .
Notitie
Nadat u clusters met GPU-knooppunten hebt ingericht, moet u ervoor zorgen dat het GPU-stuurprogramma is geïnstalleerd zoals vereist door Azure Kubernetes Service (AKS) om GPU-workloads uit te voeren. Container Insights verzamelt GPU-metrische gegevens via GPU-stuurprogrammapods die in het knooppunt worden uitgevoerd.
Naam van meetwaarde | Metrische dimensie (tags) | Beschrijving |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Percentage van de tijd gedurende de afgelopen voorbeeldperiode (60 seconden) waarbij de GPU bezet/actief werd verwerkt voor een container. De dienstcyclus is een getal tussen 1 en 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Elke container kan limieten opgeven als een of meer GPU's. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Elke container kan een of meer GPU's aanvragen. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Hoeveelheid GPU-geheugen in bytes die beschikbaar zijn voor gebruik voor een specifieke container. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Hoeveelheid GPU-geheugen in bytes die door een specifieke container worden gebruikt. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Het aantal GPU's in een knooppunt dat kan worden gebruikt door Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Totaal aantal GPU's in een knooppunt. |
* Op basis van upstreamwijzigingen in Kubernetes worden deze metrische gegevens niet meer uit het vak verzameld. Als tijdelijke hotfix moet u voor AKS uw GPU-knooppuntgroep upgraden naar de nieuwste versie of *-2022.06.08 of hoger. Schakel voor Kubernetes met Azure Arc de functiepoort DisableAcceleratorUsageMetrics=false
in in de kubelet-configuratie van het knooppunt en start de kubelet opnieuw. Nadat de upstream-wijzigingen algemeen beschikbaar zijn, werkt deze oplossing niet meer.
GPU-prestatiegrafieken
Containerinzichten bevatten vooraf geconfigureerde grafieken voor de metrische gegevens die eerder in de tabel zijn vermeld als een GPU-werkmap voor elk cluster. Zie Workbooks in Container Insights voor een beschrijving van de werkmappen die beschikbaar zijn voor Container Insights.
Volgende stappen
- Zie GPU's gebruiken voor rekenintensieve workloads in Azure Kubernetes Service voor informatie over het implementeren van een AKS-cluster met GPU-knooppunten.
- Meer informatie over voor GPU geoptimaliseerde VM-SKU's in Azure.
- Bekijk GPU-ondersteuning in Kubernetes voor meer informatie over experimentele ondersteuning voor Kubernetes voor het beheren van GPU's op een of meer knooppunten in een cluster.