Wiederherstellen des Status von Kubernetes-Clustern nach einer Katastrophe
Gilt für: AKS auf Azure Local 22H2, AKS unter Windows Server
In AKS auf Azure Local oder Windows Server wird der Verwaltungscluster pro Bereitstellung als einzelner eigenständiger virtueller Computer (VM) bereitgestellt, wodurch er zu einem einzigen Fehlerpunkt wird. Es ist wichtig zu beachten, dass ein Verwaltungsclusterausfall keine Auswirkungen auf Anwendungen hat, die in den Workloadclustern ausgeführt werden. Wenn die VM des Verwaltungsclusters fehlschlägt, werden die Workloadcluster (und Workloads) weiterhin ausgeführt, aber Sie können keine Täglich-2-Vorgänge ausführen. Sie können beispielsweise keine neuen Workloadcluster erstellen, einen Knotenpool erstellen oder skalieren oder Kubernetes-Versionen aktualisieren, bis die VM wiederhergestellt wird.
Der Verwaltungscluster ist eine VM, die im Windows-Failoverclustering nachverfolgt wird. Es ist auch widerstandsfähig für Unterbrechungen auf Hostebene. Anders ausgedrückt: Beim Ausfall eines Hostcomputers startet windows-Failoverclustering den virtuellen Computer auf einem fehlerfreien Hostcomputer neu. Dieser Artikel enthält Anleitungen zum Ausführen der folgenden Aufgaben:
- Stellen Sie den Status von AKS auf neuer Hardware wieder her (könnte ein neuer Standort sein).
- Wiederherstellen von Beschädigungen des Verwaltungsclusters.
In einem dieser Szenarien müssen Sie den Verwaltungscluster und alle Workloadcluster neu erstellen.
Wiederherstellen des Status von AKS auf neuer Hardware oder einem neuen Standort
Für das Wiederherstellen des Status von Kubernetes-Clustern ist ein Verwaltungscluster auf neuer Hardware oder am neuen Standort verfügbar.
- AKS unterstützt das Sichern von Kubernetes-Clustern in Azure Blob Storage und MinIO mithilfe von Velero. Microsoft empfiehlt, Azure Storage zu sichern, da es drei redundante Kopien von Daten in der primären Speicherregion bereitstellt.
- Erwägen Sie, die Sicherung auf einem Cron-Auftrag auszuführen, um sicherzustellen, dass verfügbare Sicherungen den Zielen des Wiederherstellungspunkts entsprechen.
Voraussetzungen
Bereiten Sie den Kalten Standby im Voraus einer Katastrophe vor, indem Sie einen Verwaltungscluster und einen leeren Workloadcluster erstellen. Sie benötigen einen leeren Workloadcluster für jeden Kubernetes-Cluster, den Sie aus der Sicherung wiederherstellen möchten. Die folgenden Voraussetzungen müssen erfüllt sein:
- Richten Sie physische Hostcomputer ein, und clustern Sie sie.
- Konfigurieren des erforderlichen Speichers:
- Für SMB: Verwenden Sie CSI-Dateitreiber (Container Storage Interface).
- Für lokalen Speicher: Verwenden Sie CSI-Datenträgertreiber (Container Storage Interface).
- Workload-Clustersicherungen sind verfügbar: Sichern, Wiederherstellen von Workloadclustern mithilfe von Velero.
- Ein AKS-Verwaltungscluster wird auf neuer Hardware installiert, oder Sie können einen neuen Verwaltungscluster auf neuer Hardware installieren, indem Sie die Schritte 1 bis 5 dieses Artikels verwenden: Verwenden Sie PowerShell, um Kubernetes auf lokalen Azure-Clustern einzurichten.
- Zum Wiederherstellen der Sicherungen ist ein leerer Workloadcluster erforderlich. Siehe Sichern, Wiederherstellen von Workloadclustern mithilfe von Velero.
Wiederherstellen von Verwaltungsclusterbeschädigungen
Für die Wiederherstellung aus einer Verwaltungsclusterbeschädigung muss AKS deinstalliert und der Verwaltungscluster und alle Workloadcluster neu installiert werden. Workloadcluster können aus Velero-Sicherungen in leere Workloadcluster wiederhergestellt werden.
Die folgenden Voraussetzungen müssen erfüllt sein:
- Workload-Clustersicherungen: Sichern, Wiederherstellen von Workloadclustern mithilfe von Velero.
- Sicherung der AKS-Konfiguration für vorherige Netzwerk-, Speicher- und Clustereinstellungen. Zu den Clustereinstellungen gehören Größen und Anzahl von Steuerungsebenen, Lastenausgleichsmodulen und VMs des Arbeitsknotens. Wenn Ihr alter Cluster z. B. 3 Standard_A2_V2 VMs für die Steuerungsebene aufweist, müssen Sie 3 VMs für die Steuerungsebene in der neuen Umgebung erstellen.
Führen Sie die folgenden Schritte aus, um die Beschädigung des Verwaltungsclusters wiederherzustellen:
- Deinstallieren Sie AKS: Uninstall-AksHci.
- Installieren Sie einen neuen AKS-Verwaltungscluster mit den Schritten 1 bis 5 dieses Artikels: Verwenden Sie PowerShell zum Einrichten von Kubernetes auf AKS-Clustern.
- Erstellen Sie den Workloadcluster mit erforderlichen Knotenpools mithilfe von Schritt 6 in diesem Artikel. Sie benötigen einen separaten Workloadcluster für jeden Workloadcluster, den Sie aus der Sicherung wiederherstellen.
- Sie können mehrere VMs der Steuerungsebene und VMs zum Lastenausgleich während der Erstellung des Workloadclusters konfigurieren, indem Sie diesen Artikel verwenden: New-AksHciCluster for AKS.
- Konfigurieren des erforderlichen Speichers:
- Für SMB: Verwenden Sie CSI-Dateitreiber (Container Storage Interface).
- Für lokalen Speicher: Verwenden Sie CSI-Datenträgertreiber (Container Storage Interface).
- Stellen Sie alle Workloadcluster aus der Sicherung wieder her.
Häufig gestellte Fragen
Welche Resilienz ist in den Verwaltungscluster integriert?
Jede AKS-Bereitstellung enthält einen Verwaltungscluster, der eine einzelne eigenständige VM ist. Für Resilienz und hohe Verfügbarkeit basiert AKS auf Windows-Failoverclustering, um den virtuellen Computer wiederherzustellen, wenn eine Unterbrechung auftritt.
Ein Verwaltungsclusterausfall hat keine Auswirkungen auf Anwendungen, die in Workloadclustern ausgeführt werden. Wenn die VM des Verwaltungsclusters heruntergeht, wirkt sich dies auf ihre Fähigkeit aus, AKS Day 2-Vorgänge auszuführen, z. B. neue Workloadcluster zu erstellen, Knotenpools zu erstellen oder zu skalieren, Kubernetes-Versionen zu aktualisieren usw., bis die VM wiederhergestellt wird. In Fällen, in denen Sie einen Verwaltungsclusterfehler nicht wiederherstellen können, empfehlen wir, sich an Microsoft-Support zu wenden.
Was ist in einer Velero-Sicherung enthalten?
Filename | Inhaltsbeschreibung |
---|---|
*-csi-volumesnapshotclasses.json.gz | Dateien, die csi enthalten, sind die permanenten Volumemomentaufnahmen. |
*-csi-volumesnapshotcontents.json.gz | Dateien, die csi enthalten, sind persistente Volumemomentaufnahmen. |
*-csi-volumesnapshots.json.gz | Dateien, die csi enthalten, sind die permanenten Volumemomentaufnahmen. |
*-logs.gz | Protokollausgabe des Sicherungsvorgangs. Gleiche Daten aus der Ausführung: velero backup log <backupname> . |
*-podvolumebackups.json.gz | Metadaten zu den Pods und persistenten Volumes. |
*-resource-list.json.gz | In dieser Datei enthaltene Ressourcen werden in dieser Datei aufgeführt. |
*-volumesnapshots.json.gz | Metadaten zu den Pods und persistenten Volumes. |
*.tar.gz | Metadaten: Namespace, Anzahl der Podreplikate, Arbeitsspeicher, CPU. Dieselben Daten wie zurückgegeben von: kubectl get deployment . |
Was ist nicht in Velero-Sicherungen enthalten?
Die Velero-Sicherung enthält nicht die folgenden Elemente:
- Konfiguration des Verwaltungsclusters (Management Cluster, AKS)
- VM-Metadaten der Steuerungsebene (API-Server)
- Metadaten des Lastenausgleichs (HA-Proxy)
- Netzwerkeinstellungen
- Speichereinstellungen
Gewusst wie die AKS-Konfiguration vor einem Notfall sichern?
Um die Verwaltungsclusterkonfiguration zu sichern, öffnen Sie ein PowerShell-Fenster, und führen Sie den folgenden Befehl aus:
Get-AksHciConfig | ConvertTo-Json
Gewusst wie sicherstellen, dass der Workloadcluster dieselbe Konfiguration wie vor einem Notfall hat?
Um die Workloadclusterkonfiguration zu sichern, öffnen Sie ein PowerShell-Fenster, und führen Sie den folgenden Befehl aus:
Get-AksHciCluster -name <cluster name> | ConvertTo-Json