Sdílet prostřednictvím


Obnovení stavu clusterů Kubernetes po havárii

Platí pro: AKS v Azure Stack HCI 22H2, AKS na Windows Serveru

V AKS na místním azure nebo Na Windows Serveru se cluster pro správu nasadí jako jeden samostatný virtuální počítač na každé nasazení, takže se jedná o jediný bod selhání. Je důležité si uvědomit, že výpadek clusteru pro správu nemá žádný vliv na aplikace spuštěné v clusterech úloh. Když virtuální počítač clusteru pro správu selže, clustery úloh (a úlohy) budou dál spuštěné, ale nemůžete provádět každodenní operace 2. Nemůžete například vytvářet nové clustery úloh, vytvářet nebo škálovat fond uzlů nebo upgradovat verze Kubernetes, dokud se virtuální počítač neobnoví.

Cluster pro správu je virtuální počítač, který se sleduje v clusteringu s podporou převzetí služeb při selhání s Windows. Je také odolný vůči přerušení na úrovni hostitele. Jinými slovy, během selhání hostitelského počítače restartuje clustering s Windows clustering s podporou převzetí služeb při selhání virtuální počítač na hostitelském počítači, který je v pořádku. Tento článek obsahuje pokyny k provádění následujících úloh:

  • Obnovení stavu AKS na novém hardwaru (může se jednat o novou lokalitu).
  • Zotavení po poškození clusteru pro správu

V některém z těchto scénářů musíte znovu vytvořit cluster pro správu a všechny clustery úloh.

Obnovení stavu AKS na novém hardwaru nebo v nové lokalitě

Obnovení stavu clusterů Kubernetes vyžaduje, abyste měli cluster pro správu dostupný na novém hardwaru nebo v novém umístění.

  • AKS podporuje zálohování clusterů Kubernetes do služby Azure Blob Storage a MinIO pomocí Velero. Microsoft doporučuje zálohování služby Azure Storage, protože poskytuje 3 redundantní kopie dat v primární oblasti úložiště.
  • Zvažte spuštění zálohování v úloze cron, abyste zajistili, že dostupné zálohy splňují cíle bodu obnovení.

Požadavky

Připravte studený pohotovostní režim před havárií vytvořením clusteru pro správu a prázdného clusteru úloh. Pro každý cluster Kubernetes, který chcete obnovit ze zálohy, potřebujete prázdný cluster úloh. Jsou vyžadovány následující požadavky:

Obnovení z poškození clusteru pro správu

Obnovení z poškození clusteru pro správu vyžaduje odinstalaci AKS a přeinstalaci clusteru pro správu a všech clusterů úloh. Clustery úloh je možné obnovit do prázdných clusterů úloh ze záloh Velero.

Jsou vyžadovány následující požadavky:

  • Zálohování clusteru úloh: Zálohování, obnovení clusterů úloh pomocí Velero
  • Zálohování konfigurace AKS pro předchozí nastavení sítě, úložiště a clusteru Nastavení clusteru zahrnuje velikosti a počty řídicí roviny, nástroje pro vyrovnávání zatížení a virtuální počítače pracovních uzlů. Pokud váš starý cluster měl například 3 Standard_A2_V2 virtuální počítače řídicí roviny, musíte v novém prostředí vytvořit 3 virtuální počítače řídicí roviny.

Pokud se chcete zotavit z poškození clusteru pro správu, proveďte následující kroky:

  • Odinstalujte AKS: Uninstall-AksHci.
  • Nainstalujte nový cluster pro správu AKS pomocí kroků 1 až 5 tohoto článku: Nastavení Kubernetes v clusterech AKS pomocí PowerShellu.
  • Vytvořte cluster úloh s požadovanými fondy uzlů pomocí kroku 6 v tomto článku. Pro každý cluster úloh, který obnovujete ze zálohy, potřebujete samostatný cluster úloh.
  • Během vytváření clusteru úloh můžete nakonfigurovat několik virtuálních počítačů řídicí roviny a virtuálních počítačů nástroje pro vyrovnávání zatížení pomocí tohoto článku: New-AksHciCluster pro AKS.
  • Konfigurace požadovaného úložiště:
  • Obnovte všechny clustery úloh ze zálohy.

Často kladené dotazy

Jaká odolnost je integrovaná do clusteru pro správu?

Každé nasazení AKS zahrnuje cluster pro správu, který je jediným samostatným virtuálním počítačem. V případě odolnosti a vysoké dostupnosti spoléhá AKS na clusteringu s podporou převzetí služeb při selhání s Windows, aby se virtuální počítač obnovil, pokud dojde k přerušení.

Výpadek clusteru pro správu nemá žádný vliv na aplikace spuštěné v clusterech úloh. Když virtuální počítač clusteru pro správu přestane fungovat, ovlivní to vaši schopnost provádět operace AKS Day 2, jako jsou vytváření nových clusterů úloh, vytváření nebo škálování fondů uzlů, upgrade verzí Kubernetes atd., dokud se virtuální počítač neobnoví. V případech, kdy se vám nedaří obnovit selhání clusteru pro správu, doporučujeme kontaktovat podpora Microsoftu.

Co je součástí zálohy Velero?

Název souboru Popis obsahu
*-csi-volumesnapshotclasses.json.gz Soubory obsahující csi jsou snímky trvalých svazků.
*-csi-volumesnapshotcontents.json.gz Soubory obsahující csi jsou trvalé snímky svazků.
*-csi-volumesnapshots.json.gz Soubory obsahující csi jsou snímky trvalých svazků.
*-logs.gz Výstup protokolu operace zálohování Stejná data ze spuštění: velero backup log <backupname>.
*-podvolumebackups.json.gz Metadata o podech a trvalých svazcích
*-resource-list.json.gz Prostředky obsažené v zálohování jsou uvedené v tomto souboru.
*-volumesnapshots.json.gz Metadata o podech a trvalých svazcích
*.tar.gz Metadata: obor názvů, počet replik podů, paměť, procesor. Stejná data jako vrácená z: kubectl get deployment.

Co není součástí záloh Velero?

Záloha Velero neobsahuje následující položky:

  • Konfigurace clusteru pro správu (AKS)
  • Metadata virtuálního počítače řídicí roviny (server API)
  • Metadata nástroje pro vyrovnávání zatížení (proxy serveru vysoké dostupnosti)
  • Nastavení sítě
  • Nastavení úložiště

Návody zálohování konfigurace AKS před havárií?

Pokud chcete zálohovat konfiguraci clusteru pro správu, otevřete okno PowerShellu a spusťte následující příkaz:

Get-AksHciConfig | ConvertTo-Json 

Návody se ujistěte, že má cluster úloh stejnou konfiguraci jako před havárií?

Pokud chcete zálohovat konfiguraci clusteru úloh, otevřete okno PowerShellu a spusťte následující příkaz:

Get-AksHciCluster -name <cluster name> | ConvertTo-Json 

Další kroky