Automatisch herstellen van AKS-knooppunten (Azure Kubernetes Service)
Azure Kubernetes Service (AKS) bewaakt continu de status van werkknooppunten en herstelt de knooppunten automatisch als ze beschadigd raken. Het Azure VM-platform (virtual machine) voert onderhoud uit op VM's die problemen ondervinden. AKS- en Azure-VM's werken samen om serviceonderbrekingen voor clusters te minimaliseren.
In dit artikel leert u hoe de functionaliteit voor automatisch herstel van knooppunten zich gedraagt voor Windows- en Linux-knooppunten.
Hoe AKS controleert op NotReady-knooppunten
AKS gebruikt de volgende regels om te bepalen of een knooppunt niet in orde is en moet worden hersteld:
- Het knooppunt rapporteert de status NotReady bij opeenvolgende controles binnen een tijdsbestek van tien minuten.
- Het knooppunt rapporteert geen status binnen 10 minuten.
U kunt de status van uw knooppunten handmatig controleren met de kubectl get nodes
opdracht.
Hoe automatisch herstellen werkt
Notitie
AKS initieert herstelbewerkingen met het gebruikersaccount aks-remediator.
Als AKS een beschadigd knooppunt identificeert dat ten minste vijf minuten niet in orde is, voert AKS de volgende acties uit:
- AKS start het knooppunt opnieuw op.
- Als het knooppunt beschadigd blijft na het opnieuw opstarten, wordt het knooppunt opnieuw in AKS geplaatst.
- Als het knooppunt niet in orde blijft na de installatiekopie en het een Linux-knooppunt is, implementeert AKS het knooppunt opnieuw.
AKS probeert de herstart, de installatiekopie opnieuw te maken en de volgorde opnieuw te implementeren tot drie keer als het knooppunt beschadigd blijft. Het algehele proces voor automatisch herstellen kan een uur duren.
Beperkingen
Automatisch herstellen van AKS-knooppunten is een best effort-service en we garanderen niet dat het knooppunt weer in orde is. Als uw knooppunt in een beschadigde status blijft, raden we u ten zeerste aan om handmatig onderzoek naar het knooppunt uit te voeren. Meer informatie over het oplossen van problemen met knooppunt NotReady-status.
Er zijn gevallen waarin AKS geen automatische reparatie uitvoert. Fout bij het automatisch herstellen van het knooppunt kan zich voordoen door het ontwerp of als Azure niet kan detecteren dat er een probleem bestaat. Voorbeelden van wanneer automatisch herstellen niet wordt uitgevoerd, zijn:
- Er wordt geen knooppuntstatus gerapporteerd vanwege een fout in de netwerkconfiguratie.
- Een knooppunt kan in eerste instantie niet worden geregistreerd als een gezond knooppunt.
- Als een van de volgende tainten aanwezig zijn op het knooppunt:
node.cloudprovider.kubernetes.io/shutdown
,ToBeDeletedByClusterAutoscaler
.
Automatisch herstellen van knooppunten bewaken met Kubernetes-gebeurtenissen
Wanneer AKS automatisch herstel van knooppunten uitvoert op uw cluster, verzendt AKS Kubernetes-gebeurtenissen vanuit de bron voor automatisch herstellen van aks voor zichtbaarheid. De volgende gebeurtenissen worden weergegeven op een knooppuntobject wanneer automatisch herstellen plaatsvindt.
Zie Kubernetes-gebeurtenissen gebruiken voor probleemoplossing in Azure Kubernetes Service voor meer informatie over het openen, opslaan en configureren van waarschuwingen voor Kubernetes-gebeurtenissen.
Reden | Gebeurtenisbericht | Beschrijving |
---|---|---|
NodeRebootStart | Automatisch herstellen van knooppunten start een herstartactie omdat de status NotReady langer dan 5 minuten blijft bestaan. | Deze gebeurtenis wordt verzonden om u op de hoogte te stellen wanneer opnieuw opstarten op het knooppunt wordt uitgevoerd. Deze actie is de eerste in de algehele reeks voor automatisch herstellen van knooppunten. |
NodeRebootEnd | De actie Voor automatisch herstellen van knooppunten is voltooid. | Wordt verzonden zodra het opnieuw opstarten is voltooid op het knooppunt. Deze gebeurtenis geeft niet de status (in orde of niet in orde) van het knooppunt aan nadat het opnieuw opstarten is uitgevoerd. |
NodeReimageStart | Automatisch herstellen van knooppunten start een reimage-actie omdat de status NotReady langer dan 5 minuten blijft bestaan. | Deze gebeurtenis wordt verzonden om u op de hoogte te stellen wanneer de installatiekopie op het punt staat om de installatiekopie op uw knooppunt uit te voeren. |
NodeReimageEnd | De actie Voor installatiekopie van automatisch herstellen van knooppunten is voltooid. | Verzonden zodra de installatiekopie is voltooid op het knooppunt. Deze gebeurtenis geeft niet de status (in orde of niet in orde) van het knooppunt aan nadat de installatiekopie opnieuw is uitgevoerd. |
NodeRedeployStart | Automatisch herstellen van knooppunten start een herploy-actie omdat de status NotReady langer dan 5 minuten duurt. | Deze gebeurtenis wordt verzonden om u op de hoogte te stellen wanneer opnieuw implementeren op uw knooppunt wordt uitgevoerd. Opnieuw implementeren is de laatste actie in de reeks voor automatisch herstellen van knooppunten. |
NodeRedeployEnd | De actie opnieuw implementeren vanuit automatisch herstellen van knooppunten is voltooid. | Wordt verzonden zodra de implementatie is voltooid op het knooppunt. Deze gebeurtenis geeft niet aan dat de status (in orde of niet in orde) van het knooppunt is nadat de implementatie is uitgevoerd. |
Als er fouten optreden tijdens het proces voor automatisch herstellen van knooppunten, worden de volgende gebeurtenissen verzonden met het exacte foutbericht. Meer informatie over het oplossen van veelvoorkomende fouten bij automatisch herstellen van knooppunten.
Notitie
Foutcode in de volgende gebeurtenisberichten varieert, afhankelijk van de gemelde fout.
Reden | Gebeurtenisbericht | Beschrijving |
---|---|---|
NodeRebootError | De opstartactie voor automatisch herstellen van knooppunten is mislukt vanwege een bewerkingsfout. Bekijk hier de foutdetails: Foutcode | Verzonden wanneer er een fout optreedt met de actie voor opnieuw opstarten. |
NodeReimageError | De herstelactie voor het automatisch herstellen van knooppunten is mislukt vanwege een bewerkingsfout. Bekijk hier de foutdetails: Foutcode | Verzonden wanneer er een fout optreedt met de actie voor opnieuw installatiekopie. |
NodeRedeployError | De herployactie voor opnieuw implementeren van knooppunten is mislukt vanwege een bewerkingsfout. Bekijk hier de foutdetails: Foutcode | Verzonden wanneer er een fout optreedt met de herploy-actie. |
Volgende stappen
Standaard hebt u vanaf het afgelopen 1 uur toegang tot Kubernetes-gebeurtenissen en logboeken in uw AKS-cluster. Als u gebeurtenissen en logboeken van de afgelopen 90 dagen wilt opslaan en er query's op wilt uitvoeren, schakelt u Container Insights in voor meer informatie over het oplossen van problemen in uw AKS-cluster.
Azure Kubernetes Service