Obnovení stavu clusterů Kubernetes po havárii
Platí pro: AKS v Azure Stack HCI 22H2, AKS na Windows Serveru
V AKS na místním azure nebo Na Windows Serveru se cluster pro správu nasadí jako jeden samostatný virtuální počítač na každé nasazení, takže se jedná o jediný bod selhání. Je důležité si uvědomit, že výpadek clusteru pro správu nemá žádný vliv na aplikace spuštěné v clusterech úloh. Když virtuální počítač clusteru pro správu selže, clustery úloh (a úlohy) budou dál spuštěné, ale nemůžete provádět každodenní operace 2. Nemůžete například vytvářet nové clustery úloh, vytvářet nebo škálovat fond uzlů nebo upgradovat verze Kubernetes, dokud se virtuální počítač neobnoví.
Cluster pro správu je virtuální počítač, který se sleduje v clusteringu s podporou převzetí služeb při selhání s Windows. Je také odolný vůči přerušení na úrovni hostitele. Jinými slovy, během selhání hostitelského počítače restartuje clustering s Windows clustering s podporou převzetí služeb při selhání virtuální počítač na hostitelském počítači, který je v pořádku. Tento článek obsahuje pokyny k provádění následujících úloh:
- Obnovení stavu AKS na novém hardwaru (může se jednat o novou lokalitu).
- Zotavení po poškození clusteru pro správu
V některém z těchto scénářů musíte znovu vytvořit cluster pro správu a všechny clustery úloh.
Obnovení stavu AKS na novém hardwaru nebo v nové lokalitě
Obnovení stavu clusterů Kubernetes vyžaduje, abyste měli cluster pro správu dostupný na novém hardwaru nebo v novém umístění.
- AKS podporuje zálohování clusterů Kubernetes do služby Azure Blob Storage a MinIO pomocí Velero. Microsoft doporučuje zálohování služby Azure Storage, protože poskytuje 3 redundantní kopie dat v primární oblasti úložiště.
- Zvažte spuštění zálohování v úloze cron, abyste zajistili, že dostupné zálohy splňují cíle bodu obnovení.
Požadavky
Připravte studený pohotovostní režim před havárií vytvořením clusteru pro správu a prázdného clusteru úloh. Pro každý cluster Kubernetes, který chcete obnovit ze zálohy, potřebujete prázdný cluster úloh. Jsou vyžadovány následující požadavky:
- Nastavení fyzických hostitelských počítačů a clusteru
- Konfigurace požadovaného úložiště:
- Pro SMB: Použijte ovladače souborů ROZHRANÍ úložiště kontejnerů (CSI).
- Pro místní úložiště: Použijte diskové ovladače rozhraní csI (Container Storage Interface).
- K dispozici jsou zálohy clusteru úloh: Zálohování a obnovení clusterů úloh pomocí Velero.
- Cluster pro správu AKS je nainstalovaný na novém hardwaru nebo můžete nainstalovat nový cluster pro správu na nový hardware pomocí kroků 1 až 5 tohoto článku: Nastavení Kubernetes v místních clusterech Azure pomocí PowerShellu.
- K obnovení záloh se vyžaduje prázdný cluster úloh. Viz Zálohování a obnovení clusterů úloh pomocí Velero.
Obnovení z poškození clusteru pro správu
Obnovení z poškození clusteru pro správu vyžaduje odinstalaci AKS a přeinstalaci clusteru pro správu a všech clusterů úloh. Clustery úloh je možné obnovit do prázdných clusterů úloh ze záloh Velero.
Jsou vyžadovány následující požadavky:
- Zálohování clusteru úloh: Zálohování, obnovení clusterů úloh pomocí Velero
- Zálohování konfigurace AKS pro předchozí nastavení sítě, úložiště a clusteru Nastavení clusteru zahrnuje velikosti a počty řídicí roviny, nástroje pro vyrovnávání zatížení a virtuální počítače pracovních uzlů. Pokud váš starý cluster měl například 3 Standard_A2_V2 virtuální počítače řídicí roviny, musíte v novém prostředí vytvořit 3 virtuální počítače řídicí roviny.
Pokud se chcete zotavit z poškození clusteru pro správu, proveďte následující kroky:
- Odinstalujte AKS: Uninstall-AksHci.
- Nainstalujte nový cluster pro správu AKS pomocí kroků 1 až 5 tohoto článku: Nastavení Kubernetes v clusterech AKS pomocí PowerShellu.
- Vytvořte cluster úloh s požadovanými fondy uzlů pomocí kroku 6 v tomto článku. Pro každý cluster úloh, který obnovujete ze zálohy, potřebujete samostatný cluster úloh.
- Během vytváření clusteru úloh můžete nakonfigurovat několik virtuálních počítačů řídicí roviny a virtuálních počítačů nástroje pro vyrovnávání zatížení pomocí tohoto článku: New-AksHciCluster pro AKS.
- Konfigurace požadovaného úložiště:
- Pro SMB: Použijte ovladače souborů ROZHRANÍ úložiště kontejnerů (CSI).
- Pro místní úložiště: Použijte diskové ovladače rozhraní csI (Container Storage Interface).
- Obnovte všechny clustery úloh ze zálohy.
Často kladené dotazy
Jaká odolnost je integrovaná do clusteru pro správu?
Každé nasazení AKS zahrnuje cluster pro správu, který je jediným samostatným virtuálním počítačem. V případě odolnosti a vysoké dostupnosti spoléhá AKS na clusteringu s podporou převzetí služeb při selhání s Windows, aby se virtuální počítač obnovil, pokud dojde k přerušení.
Výpadek clusteru pro správu nemá žádný vliv na aplikace spuštěné v clusterech úloh. Když virtuální počítač clusteru pro správu přestane fungovat, ovlivní to vaši schopnost provádět operace AKS Day 2, jako jsou vytváření nových clusterů úloh, vytváření nebo škálování fondů uzlů, upgrade verzí Kubernetes atd., dokud se virtuální počítač neobnoví. V případech, kdy se vám nedaří obnovit selhání clusteru pro správu, doporučujeme kontaktovat podpora Microsoftu.
Co je součástí zálohy Velero?
Název souboru | Popis obsahu |
---|---|
*-csi-volumesnapshotclasses.json.gz | Soubory obsahující csi jsou snímky trvalých svazků. |
*-csi-volumesnapshotcontents.json.gz | Soubory obsahující csi jsou trvalé snímky svazků. |
*-csi-volumesnapshots.json.gz | Soubory obsahující csi jsou snímky trvalých svazků. |
*-logs.gz | Výstup protokolu operace zálohování Stejná data ze spuštění: velero backup log <backupname> . |
*-podvolumebackups.json.gz | Metadata o podech a trvalých svazcích |
*-resource-list.json.gz | Prostředky obsažené v zálohování jsou uvedené v tomto souboru. |
*-volumesnapshots.json.gz | Metadata o podech a trvalých svazcích |
*.tar.gz | Metadata: obor názvů, počet replik podů, paměť, procesor. Stejná data jako vrácená z: kubectl get deployment . |
Co není součástí záloh Velero?
Záloha Velero neobsahuje následující položky:
- Konfigurace clusteru pro správu (AKS)
- Metadata virtuálního počítače řídicí roviny (server API)
- Metadata nástroje pro vyrovnávání zatížení (proxy serveru vysoké dostupnosti)
- Nastavení sítě
- Nastavení úložiště
Návody zálohování konfigurace AKS před havárií?
Pokud chcete zálohovat konfiguraci clusteru pro správu, otevřete okno PowerShellu a spusťte následující příkaz:
Get-AksHciConfig | ConvertTo-Json
Návody se ujistěte, že má cluster úloh stejnou konfiguraci jako před havárií?
Pokud chcete zálohovat konfiguraci clusteru úloh, otevřete okno PowerShellu a spusťte následující příkaz:
Get-AksHciCluster -name <cluster name> | ConvertTo-Json