Proactieve bewakingsprocedures voor Azure Kubernetes Service (AKS)

Artikel
11/11/2024

In dit artikel worden de best practices beschreven voor proactieve bewaking op Azure Kubernetes Service (AKS) en vindt u een uitgebreide lijst met de belangrijkste signalen die AKS aanbeveelt om te controleren.

Het proactief bewaken van uw AKS-clusters is van cruciaal belang voor het verminderen van downtime en het besparen van bedrijfsonderbrekingen voor uw toepassingen. Dit proces omvat het identificeren en bewaken van belangrijke indicatoren van abnormaal gedrag in uw cluster die kunnen leiden tot grote problemen of downtime.

Overzicht van bewaking en waarschuwingen

Bewaking op AKS omvat het gebruik van metrische gegevens, logboeken en gebeurtenissen om de status en prestaties van uw cluster te garanderen. Veelvoorkomende scenario's voor het bewaken van de prestaties van knooppunten, de podstatus en het algehele resourcegebruik in uw cluster. Logboeken bieden inzicht in systeemgebeurtenissen en clusterbewerkingen en -activiteit. Zie AKS (Azure Kubernetes Service) bewaken voor meer informatie over de methoden en signalen die AKS biedt voor bewaking.

De beste manier om uw cluster proactief te bewaken, is door Azure Monitor-waarschuwingen te configureren. Waarschuwingen fungeren als proactieve maatregelen om u op de hoogte te stellen van mogelijke problemen of afwijkingen voordat ze escaleren naar kritieke problemen. Door drempelwaarden te definiëren voor belangrijke metrische gegevens en logboeken, ontvangt u onmiddellijke waarschuwingen wanneer deze signalen de vooraf gedefinieerde limieten overschrijden, wat wijst op mogelijke problemen, zoals uitputting van resources of toepassingsfouten. We raden u ten zeerste aan om serviceniveaudoelstellingen (SLO's) te definiëren voor uw toepassing om de prestaties en betrouwbaarheid van uw service te meten. Door waarschuwingen voor de belangrijkste signalen voor uw SLO's te configureren, kunt u snel de kwaliteit van de service van uw toepassing detecteren die uw klanten ontvangen. Over het algemeen kunt u met het instellen van tijdige waarschuwingen snel problemen onderzoeken en oplossen, downtime minimaliseren en hoge beschikbaarheid garanderen van toepassingen die worden uitgevoerd op uw AKS-cluster.

Waarschuwingen configureren voor specifieke metrische typen

Type metrische gegevens	Waar u deze metrische gegevens kunt vinden	Waarschuwingen configureren
Metrische gegevens van AKS-platform	Bekijk metrische platformgegevens via de blade Metrische gegevens in Azure Portal.	U kunt waarschuwingen voor metrische gegevens maken, bijwerken en verwijderen via Azure Portal. Zie Een metrische waarschuwing voor een Azure-resource maken voor meer informatie.
Metrische gegevens van Azure Managed Prometheus	Als u toegang wilt krijgen tot metrische gegevens van Prometheus, moet u Beheerde Prometheus inschakelen. Zie Azure Monitor en Prometheus voor meer informatie over het inschakelen en weergeven van metrische Prometheus-gegevens.	Zie de beheerde Azure Monitor-service voor Prometheus-regelgroepen voor hulp bij het configureren van Prometheus-waarschuwingen.
Activiteitenlogboeken van Azure	Activiteitenlogboeken weergeven via Azure Portal. Zie Azure-activiteitenlogboeken voor AKS voor meer informatie.	Configureer waarschuwingen voor activiteitenlogboeken via Azure Portal. Zie Waarschuwingen voor activiteitenlogboeken voor meer informatie.
Metrische gegevens voor virtuele-machineschaalset van Azure	Bekijk de metrische gegevens van de virtuele-machineschaalset via Azure Portal.	1. Als u het exemplaar van de virtuele-machineschaalset wilt vinden dat is gekoppeld aan uw knooppuntgroep, gaat u naar de blade Instellingeneigenschappen > voor uw AKS-cluster in Azure Portal. 2. Selecteer uw infrastructuurresourcegroep om de infrastructuurresources weer te geven die aan uw cluster zijn gekoppeld. 3. Selecteer het exemplaar van de virtuele-machineschaalset die overeenkomt met de naam van uw knooppuntgroep waarvoor u waarschuwingen maakt. 4. Navigeer naar de blade Waarschuwingen om uw metrische waarschuwing te maken.
Metrische gegevens van Load Balancer	Bekijk metrische gegevens van load balancer via de pagina Load Balancer in Azure Portal.	1. Als u het load balancer-exemplaar wilt vinden dat is gekoppeld aan uw knooppuntgroep, gaat u naar de blade Instellingeneigenschappen > voor uw AKS-cluster in Azure Portal. 2. Selecteer uw infrastructuurresourcegroep om de infrastructuurresources weer te geven die aan uw cluster zijn gekoppeld. 3. Selecteer het load balancer-exemplaar om de azure-portalpagina voor de load balancer weer te geven. 4. Navigeer naar de pagina Waarschuwingen om uw metrische waarschuwing voor de load balancer te maken.
Logboeken en gebeurtenissen	Als u waarschuwingen wilt ontvangen over logboeken en gebeurtenissen, moet u Container Insights inschakelen. Zie Azure Monitor-resourcelogboeken voor meer informatie.	Zie Waarschuwingen voor zoeken in logboeken maken vanuit Container Insights voor hulp bij het maken van waarschuwingen voor logboeken en gebeurtenissen.

Kritieke signalen voor het configureren van waarschuwingen

Als u een holistische dekking van uw AKS-omgeving wilt krijgen, moet u waarschuwingen configureren voor de drie belangrijkste onderdelen van uw cluster:

Clusterinfrastructuur: waarschuwingen die gericht zijn op de onderliggende infrastructuur van uw cluster, zoals knooppunten, schijven en netwerken.
Toepassingsstatus: Waarschuwingen voor het bewaken van de status van uw pods en toepassingen. Enkele veelvoorkomende indicatoren van beschadigde toepassingen zijn buiten-geheugen-kills (OOMKills) van uw pods, pods die niet gereed zijn, enzovoort.
Kubernetes-besturingsvlak: Waarschuwingen op het AKS-besturingsvlak om de status en prestaties van de API-server, enzovoort, en andere onderdelen te bewaken.

De volgende secties bevatten de belangrijkste signalen die we alle AKS-klanten nauw aanbevelen. Het AKS-team werkt aan het toevoegen van alle kritieke signalen aan de bestaande functie Aanbevolen waarschuwingen , waarmee u eenvoudig waarschuwingen voor alle signalen met één klik kunt inschakelen. De waarschuwingen voor metrische prometheus-gegevens zijn vandaag beschikbaar in de openbare preview en de resterende waarschuwingen zijn naar schatting begin 2025 beschikbaar. Voorlopig kunt u waarschuwingen op de kritieke signalen handmatig configureren.

Waarschuwingen voor clusterinfrastructuur

Waarschuwingsscenario	Bron	Signaal	Aanbevolen drempelwaarde
Cluster heeft de status Mislukt	Activiteitenlogboeken van Azure	Beheerd cluster maken of bijwerken	De status van het logboek is mislukt, wat aangeeft dat de upgrade of het maken van het cluster is mislukt.
Knooppuntgroep heeft de status Mislukt	Activiteitenlogboeken van Azure	Agentpool maken of bijwerken	De status van het logboek is mislukt, wat aangeeft dat de knooppuntgroep de status Mislukt heeft vanwege een mislukte CRUD-bewerking (Create, Read, Upgrade of Delete).
Hoog bandbreedtegebruik van besturingssysteemschijf	Metrische gegevens voor virtuele-machineschaalset	Percentage verbruikte bandbreedte van de besturingssysteemschijf	Bandbreedtegebruik van knooppuntbesturingssysteemschijf is hoger dan 95%.
Hoog IOPS-gebruik van besturingssysteemschijf	Metrische gegevens voor virtuele-machineschaalset	Percentage verbruikte IOPS van de besturingssysteemschijf	IOPS-gebruik van knooppuntbesturingssystemen is hoger dan 95%.
Hoog schijfruimtegebruik van knooppunten	Metrische gegevens van AKS-platform	Percentage gebruikte schijf	Het percentage schijfruimtepercentage van het knooppuntbesturingssysteem is hoger dan 90%.
Hoog CPU-gebruik van knooppunten	Metrische gegevens van AKS-platform	CPU-gebruikspercentage	Cpu-gebruik van knooppunten is groter dan 90%.
Hoog geheugengebruik van knooppunten	Metrische gegevens van AKS-platform	Percentage werkset geheugen	Geheugengebruik van knooppunten is groter dan 90%.
Het knooppunt heeft de status NotReady	Metrische gegevens van AKS-platform	Status voor verschillende knooppuntvoorwaarden	Het knooppunt heeft de status NotReady gedurende >20 minuten.
SNAT-poortuitputting	Metrische gegevens van Load Balancer (LB)	Aantal SNAT-verbindingen	Filter voor verbindingsstatus = "Mislukt"

Statuswaarschuwingen voor toepassingen

Waarschuwingsscenario	Bron	Signaal	Aanbevolen drempelwaarde
Hoog aantal beschadigde pods	Metrische gegevens van Azure Managed Prometheus	Waarschuwingsnaam: KubePodReadyStateLow	Beschikbaar als een aanbevolen AKS-waarschuwing. Zie Aanbevolen waarschuwingsregels voor Kubernetes-clusters om deze waarschuwing in te schakelen.
Een of meer pods worden opnieuw opgestart	Metrische gegevens van Azure Managed Prometheus	Waarschuwingsnaam: KubePodContainerRestart	Beschikbaar als een aanbevolen AKS-waarschuwing. Zie Aanbevolen waarschuwingsregels voor Kubernetes-clusters om deze waarschuwing in te schakelen.
Een of meer pods hebben de status CrashLoop	Metrische gegevens van Azure Managed Prometheus	Waarschuwingsnaam: KubePodCrashLooping	Beschikbaar als een aanbevolen AKS-waarschuwing. Zie Aanbevolen waarschuwingsregels voor Kubernetes-clusters om deze waarschuwing in te schakelen.

Waarschuwingen voor kubernetes-besturingsvlak

Waarschuwingsscenario	Bron	Signaal	Aanbevolen drempelwaarde
ETCD is opgevuld	Metrische gegevens van Azure Managed Prometheus	etcd_mvcc_db_total_size_in_use_in_bytes	ETCD-gebruik is groter dan 2 GB
Fouten met te veel aanvragen voor API-server	Metrische gegevens van Azure Managed Prometheus	apiserver_request_total	Filteren op foutcode 429
Api Server-webhook- en tunnelfouten	Metrische gegevens van Azure Managed Prometheus	apiserver_request_total	Filteren op foutcodes 500 en 503

Volgende stappen

Zie de volgende artikelen voor meer informatie over bewaking op AKS:

Delen via