Delen via


Proactieve bewakingsprocedures voor Azure Kubernetes Service (AKS)

In dit artikel worden de best practices beschreven voor proactieve bewaking op Azure Kubernetes Service (AKS) en vindt u een uitgebreide lijst met de belangrijkste signalen die AKS aanbeveelt om te controleren.

Het proactief bewaken van uw AKS-clusters is van cruciaal belang voor het verminderen van downtime en het besparen van bedrijfsonderbrekingen voor uw toepassingen. Dit proces omvat het identificeren en bewaken van belangrijke indicatoren van abnormaal gedrag in uw cluster die kunnen leiden tot grote problemen of downtime.

Overzicht van bewaking en waarschuwingen

Bewaking op AKS omvat het gebruik van metrische gegevens, logboeken en gebeurtenissen om de status en prestaties van uw cluster te garanderen. Veelvoorkomende scenario's voor het bewaken van de prestaties van knooppunten, de podstatus en het algehele resourcegebruik in uw cluster. Logboeken bieden inzicht in systeemgebeurtenissen en clusterbewerkingen en -activiteit. Zie AKS (Azure Kubernetes Service) bewaken voor meer informatie over de methoden en signalen die AKS biedt voor bewaking.

De beste manier om uw cluster proactief te bewaken, is door Azure Monitor-waarschuwingen te configureren. Waarschuwingen fungeren als proactieve maatregelen om u op de hoogte te stellen van mogelijke problemen of afwijkingen voordat ze escaleren naar kritieke problemen. Door drempelwaarden te definiëren voor belangrijke metrische gegevens en logboeken, ontvangt u onmiddellijke waarschuwingen wanneer deze signalen de vooraf gedefinieerde limieten overschrijden, wat wijst op mogelijke problemen, zoals uitputting van resources of toepassingsfouten. We raden u ten zeerste aan om serviceniveaudoelstellingen (SLO's) te definiëren voor uw toepassing om de prestaties en betrouwbaarheid van uw service te meten. Door waarschuwingen voor de belangrijkste signalen voor uw SLO's te configureren, kunt u snel de kwaliteit van de service van uw toepassing detecteren die uw klanten ontvangen. Over het algemeen kunt u met het instellen van tijdige waarschuwingen snel problemen onderzoeken en oplossen, downtime minimaliseren en hoge beschikbaarheid garanderen van toepassingen die worden uitgevoerd op uw AKS-cluster.

Waarschuwingen configureren voor specifieke metrische typen

Type metrische gegevens Waar u deze metrische gegevens kunt vinden Waarschuwingen configureren
Metrische gegevens van AKS-platform Bekijk metrische platformgegevens via de blade Metrische gegevens in Azure Portal. U kunt waarschuwingen voor metrische gegevens maken, bijwerken en verwijderen via Azure Portal. Zie Een metrische waarschuwing voor een Azure-resource maken voor meer informatie.
Metrische gegevens van Azure Managed Prometheus Als u toegang wilt krijgen tot metrische gegevens van Prometheus, moet u Beheerde Prometheus inschakelen. Zie Azure Monitor en Prometheus voor meer informatie over het inschakelen en weergeven van metrische Prometheus-gegevens. Zie de beheerde Azure Monitor-service voor Prometheus-regelgroepen voor hulp bij het configureren van Prometheus-waarschuwingen.
Activiteitenlogboeken van Azure Activiteitenlogboeken weergeven via Azure Portal. Zie Azure-activiteitenlogboeken voor AKS voor meer informatie. Configureer waarschuwingen voor activiteitenlogboeken via Azure Portal. Zie Waarschuwingen voor activiteitenlogboeken voor meer informatie.
Metrische gegevens voor virtuele-machineschaalset van Azure Bekijk de metrische gegevens van de virtuele-machineschaalset via Azure Portal. 1. Als u het exemplaar van de virtuele-machineschaalset wilt vinden dat is gekoppeld aan uw knooppuntgroep, gaat u naar de blade Instellingeneigenschappen > voor uw AKS-cluster in Azure Portal.
2. Selecteer uw infrastructuurresourcegroep om de infrastructuurresources weer te geven die aan uw cluster zijn gekoppeld.
3. Selecteer het exemplaar van de virtuele-machineschaalset die overeenkomt met de naam van uw knooppuntgroep waarvoor u waarschuwingen maakt.
4. Navigeer naar de blade Waarschuwingen om uw metrische waarschuwing te maken.
Metrische gegevens van Load Balancer Bekijk metrische gegevens van load balancer via de pagina Load Balancer in Azure Portal. 1. Als u het load balancer-exemplaar wilt vinden dat is gekoppeld aan uw knooppuntgroep, gaat u naar de blade Instellingeneigenschappen > voor uw AKS-cluster in Azure Portal.
2. Selecteer uw infrastructuurresourcegroep om de infrastructuurresources weer te geven die aan uw cluster zijn gekoppeld.
3. Selecteer het load balancer-exemplaar om de azure-portalpagina voor de load balancer weer te geven.
4. Navigeer naar de pagina Waarschuwingen om uw metrische waarschuwing voor de load balancer te maken.
Logboeken en gebeurtenissen Als u waarschuwingen wilt ontvangen over logboeken en gebeurtenissen, moet u Container Insights inschakelen. Zie Azure Monitor-resourcelogboeken voor meer informatie. Zie Waarschuwingen voor zoeken in logboeken maken vanuit Container Insights voor hulp bij het maken van waarschuwingen voor logboeken en gebeurtenissen.

Kritieke signalen voor het configureren van waarschuwingen

Als u een holistische dekking van uw AKS-omgeving wilt krijgen, moet u waarschuwingen configureren voor de drie belangrijkste onderdelen van uw cluster:

  • Clusterinfrastructuur: waarschuwingen die gericht zijn op de onderliggende infrastructuur van uw cluster, zoals knooppunten, schijven en netwerken.
  • Toepassingsstatus: Waarschuwingen voor het bewaken van de status van uw pods en toepassingen. Enkele veelvoorkomende indicatoren van beschadigde toepassingen zijn buiten-geheugen-kills (OOMKills) van uw pods, pods die niet gereed zijn, enzovoort.
  • Kubernetes-besturingsvlak: Waarschuwingen op het AKS-besturingsvlak om de status en prestaties van de API-server, enzovoort, en andere onderdelen te bewaken.

De volgende secties bevatten de belangrijkste signalen die we alle AKS-klanten nauw aanbevelen. Het AKS-team werkt aan het toevoegen van alle kritieke signalen aan de bestaande functie Aanbevolen waarschuwingen , waarmee u eenvoudig waarschuwingen voor alle signalen met één klik kunt inschakelen. De waarschuwingen voor metrische prometheus-gegevens zijn vandaag beschikbaar in de openbare preview en de resterende waarschuwingen zijn naar schatting begin 2025 beschikbaar. Voorlopig kunt u waarschuwingen op de kritieke signalen handmatig configureren.

Waarschuwingen voor clusterinfrastructuur

Waarschuwingsscenario Bron Signaal Aanbevolen drempelwaarde
Cluster heeft de status Mislukt Activiteitenlogboeken van Azure Beheerd cluster maken of bijwerken De status van het logboek is mislukt, wat aangeeft dat de upgrade of het maken van het cluster is mislukt.
Knooppuntgroep heeft de status Mislukt Activiteitenlogboeken van Azure Agentpool maken of bijwerken De status van het logboek is mislukt, wat aangeeft dat de knooppuntgroep de status Mislukt heeft vanwege een mislukte CRUD-bewerking (Create, Read, Upgrade of Delete).
Hoog bandbreedtegebruik van besturingssysteemschijf Metrische gegevens voor virtuele-machineschaalset Percentage verbruikte bandbreedte van de besturingssysteemschijf Bandbreedtegebruik van knooppuntbesturingssysteemschijf is hoger dan 95%.
Hoog IOPS-gebruik van besturingssysteemschijf Metrische gegevens voor virtuele-machineschaalset Percentage verbruikte IOPS van de besturingssysteemschijf IOPS-gebruik van knooppuntbesturingssystemen is hoger dan 95%.
Hoog schijfruimtegebruik van knooppunten Metrische gegevens van AKS-platform Percentage gebruikte schijf Het percentage schijfruimtepercentage van het knooppuntbesturingssysteem is hoger dan 90%.
Hoog CPU-gebruik van knooppunten Metrische gegevens van AKS-platform CPU-gebruikspercentage Cpu-gebruik van knooppunten is groter dan 90%.
Hoog geheugengebruik van knooppunten Metrische gegevens van AKS-platform Percentage werkset geheugen Geheugengebruik van knooppunten is groter dan 90%.
Het knooppunt heeft de status NotReady Metrische gegevens van AKS-platform Status voor verschillende knooppuntvoorwaarden Het knooppunt heeft de status NotReady gedurende >20 minuten.
SNAT-poortuitputting Metrische gegevens van Load Balancer (LB) Aantal SNAT-verbindingen Filter voor verbindingsstatus = "Mislukt"

Statuswaarschuwingen voor toepassingen

Waarschuwingsscenario Bron Signaal Aanbevolen drempelwaarde
Hoog aantal beschadigde pods Metrische gegevens van Azure Managed Prometheus Waarschuwingsnaam: KubePodReadyStateLow Beschikbaar als een aanbevolen AKS-waarschuwing. Zie Aanbevolen waarschuwingsregels voor Kubernetes-clusters om deze waarschuwing in te schakelen.
Een of meer pods worden opnieuw opgestart Metrische gegevens van Azure Managed Prometheus Waarschuwingsnaam: KubePodContainerRestart Beschikbaar als een aanbevolen AKS-waarschuwing. Zie Aanbevolen waarschuwingsregels voor Kubernetes-clusters om deze waarschuwing in te schakelen.
Een of meer pods hebben de status CrashLoop Metrische gegevens van Azure Managed Prometheus Waarschuwingsnaam: KubePodCrashLooping Beschikbaar als een aanbevolen AKS-waarschuwing. Zie Aanbevolen waarschuwingsregels voor Kubernetes-clusters om deze waarschuwing in te schakelen.

Waarschuwingen voor kubernetes-besturingsvlak

Waarschuwingsscenario Bron Signaal Aanbevolen drempelwaarde
ETCD is opgevuld Metrische gegevens van Azure Managed Prometheus etcd_mvcc_db_total_size_in_use_in_bytes ETCD-gebruik is groter dan 2 GB
Fouten met te veel aanvragen voor API-server Metrische gegevens van Azure Managed Prometheus apiserver_request_total Filteren op foutcode 429
Api Server-webhook- en tunnelfouten Metrische gegevens van Azure Managed Prometheus apiserver_request_total Filteren op foutcodes 500 en 503

Volgende stappen

Zie de volgende artikelen voor meer informatie over bewaking op AKS: