Udostępnij za pośrednictwem


Zalecenia dotyczące projektowania wieloregionowego o wysokiej dostępności

Dotyczy tego zalecenia listy kontrolnej niezawodności platformy Azure Well-Architected Framework:

RE:05 Dodaj nadmiarowość na różnych poziomach, szczególnie w przypadku przepływów krytycznych, aby pomóc spełnić cele dotyczące niezawodności. Rozważ zapasowe składniki infrastruktury, takie jak zasoby obliczeniowe i sieć, oraz wiele wystąpień rozwiązania.

Powiązane przewodniki:Zabezpieczenie nadmiarowe | Korzystanie ze stref dostępności i regionów

W tym przewodniku opisano zalecenia dotyczące projektowania środowiska chmury o wysokiej dostępności w wielu regionach. Wysoka dostępność to podstawowa zasada projektowania dla niezawodności. Architektura o wysokiej dostępności może pomóc jak najbardziej unikać przestojów i efektywnie odzyskać sprawność, jeśli wystąpi przestój.

aktywny-aktywny i aktywny-pasywny są ogólnymi typami architektury, które można stosować na różne sposoby, w zależności od platformy, na której wdrażasz swoje środowisko. Ten przewodnik koncentruje się na projekcie środowiska chmury w wielu regionach. Na platformie Azure można również zaprojektować architekturę typu active-active lub active-passive w jednym regionie przy użyciu stref dostępności . Aby uzyskać szczegółowe wskazówki dotyczące projektowania architektury o wysokiej dostępności przy użyciu stref dostępności, zobacz przewodnik Azure Well-Architected Framework.

Kluczowe strategie projektowania

Podejścia aktywno-aktywne i aktywno-pasywne to dwa podstawowe podejścia do projektowania środowiska chmury o wysokiej dostępności. Środowiska aktywne-aktywne są zaprojektowane do zarządzania obciążeniami produkcyjnymi w każdym regionie, w którym wdrażasz swoje obciążenia. Środowiska aktywno-pasywne są zaprojektowane do obsługi obciążeń produkcyjnych wyłącznie w regionie podstawowym, ale w razie potrzeby przełączają się do regionu pomocniczego (pasywnego). Wybór najlepszych regionów świadczenia usługi Azure dla obciążenia jest kluczowym elementem projektowania środowiska z wieloma regionami o wysokiej dostępności. Aby uzyskać wskazówki dotyczące wybierania regionów platformy Azure, zobacz przewodnik Select Azure Regions (Wybieranie regionów platformy Azure).

W tej sekcji opisano opcje projektowania, które należy wziąć pod uwagę podczas oceny każdego wzorca i uściślić architekturę w celu spełnienia wymagań biznesowych.

Zobacz wzorzec stempli wdrożeniowych, aby uzyskać wskazówki dotyczące projektowania obciążenia w sposób powtarzalny i skalowalny. Ten wzorzec projektu może pomóc w optymalizacji projektu wysokiej dostępności pod kątem wydajnego zarządzania.

W poniższych sekcjach opisano opcje projektowania tych dwóch wzorców.

Wdrażanie w trybie aktywny-aktywny dla bez żadnych przestojów

  • aktywne-aktywne w pojemności: dublowane sygnatury wdrożenia w co najmniej dwóch regionach świadczenia usługi Azure, z których każda jest skonfigurowana do obsługi obciążeń produkcyjnych dla regionu lub regionów, które obsługują i skalowalne do obsługi obciążeń z innych regionów w przypadku awarii regionalnej.

    • Sieć: użyj opóźnienia lub ważonego globalnego routingu, aby rozłożyć ruch między regionami.

    • Replikacja i spójność danych: użyj globalnie rozproszonego magazynu danych, takiego jak usługi Azure Cosmos DB na potrzeby funkcji odczytu i zapisu w wielu regionach. W przypadku relacyjnych baz danych użyj replik do odczytu z parametrami połączenia tylko do odczytu.

    • Zaleta tego projektu: niższe koszty operacyjne niż nadmierna aprowizowana konstrukcja.

    • Wadą tego projektu jest możliwe pogorszenie doświadczenia użytkownika przy zwiększaniu skali w celu spełnienia wymagań pełnego obciążenia, jeśli inny region doświadcza awarii.

  • Aktywny-aktywny z nadmiernym przydziałem: Podwójne wdrożenia w co najmniej dwóch regionach Azure, z których każdy jest nadmiernie przydzielony, aby obsługiwać obciążenia produkcyjne dla obsługiwanego regionu lub regionów oraz obsługiwać obciążenia z innych regionów w przypadku awarii regionalnej.

    • Sieć: użyj opóźnienia lub globalnego routingu ważonego , aby rozłożyć ruch między regionami.

    • Replikacja i spójność danych: użyj globalnie rozproszonego magazynu danych, takiego jak usługi Azure Cosmos DB na potrzeby funkcji odczytu i zapisu w wielu regionach. W przypadku relacyjnych baz danych użyj replik do odczytu z parametrami połączenia tylko do odczytu.

    • Zaleta tego projektu: najbardziej odporny projekt jest możliwy.

    • Wadą tego projektu: Wyższe koszty operacyjne niż skalowalny projekt.

  • Typowe zalety obu projektów: wysoka odporność i niskie ryzyko awarii pełnego obciążenia.

  • Typowe wady obu projektów: wyższe koszty operacyjne i obciążenie związane z zarządzaniem ze względu na różne czynniki, w tym konieczność zarządzania synchronizacją stanu aplikacji i danych.

Wdrażanie w trybie aktywny-pasywny w celu odzyskiwania danych po awarii

  • ciepłezapasowe: jeden region podstawowy i co najmniej jeden region pomocniczy. Region pomocniczy jest wdrażany z jak najmniejszym rozmiarem zasobów obliczeniowych i danych oraz działa bez obciążenia. Ten region jest znany jako ciepły zapasowy region. Po przejściu w tryb failover zasoby obliczeniowe i zasoby danych są skalowane w celu obsługi obciążenia z regionu podstawowego.

    • Sieć: użyj globalnego routingu z priorytetem .

    • Replikacja danych i spójność: Replikuj bazę danych do regionu pasywnego i korzystaj z automatycznych możliwości trybu failover rozwiązań typu platforma jako usługa (PaaS), takich jak azure Cosmos DB i azure SQL Database.

    • Zaletą tego projektu: najkrótszy czas odzyskiwania wśród projektów z mechanizmem aktywno-pasywnym.

    • Wadą tego projektu, jest najwyższy koszt operacyjny wśród projektów aktywno-pasywnych.

  • Zapas na zimno: jeden region podstawowy i co najmniej jeden region pomocniczy. Region pomocniczy jest skalowany w celu obsługi pełnego obciążenia, ale wszystkie zasoby obliczeniowe są zatrzymywane. Ten region jest nazywany regionem zimnym. Przed przełączeniem awaryjnym należy uruchomić zasoby.

    • Sieć: użyj priorytetu routingu globalnego.

    • Replikacja i spójność danych: Replikuj bazę danych do regionu pasywnego i korzystaj z automatycznych funkcji awaryjnego przełączania rozwiązań PaaS, takich jak Azure Cosmos DB i Azure SQL Database.

    • Zaletą tego projektu: niższe koszty operacyjne niż ciepły zapasowy projekt.

    • Wadą tego projektu jest dłuższy czas odzyskiwania niż w przypadku projektu ciepłej rezerwy.

  • Ponowne wdrażanie w przypadkuawarii: jeden region podstawowy i co najmniej jeden region pomocniczy. Tylko niezbędna sieć jest wdrażana w regionie pomocniczym. Operatorzy muszą uruchamiać skrypty udostępniania w regionie pomocniczym, aby przestawić obciążenia w tryb failover. Projekt ten jest znany jako ponowne wdrażanie w przypadku awarii.

    • Sieć: użyj globalnego routingu z priorytetem .

    • Replikacja i spójność danych: wdróż nowe wystąpienia bazy danych i ponownie wypełnianie danych z kopii zapasowych.

    • Zaletą tego projektu: najniższe koszty operacyjne.

    • Wadą tego projektu jest najdłuższy czas odzyskiwania.

  • Typowe zalety projektów aktywnych-pasywnych: niższe koszty operacyjne i mniejsze obciążenie związane z zarządzaniem codziennym niż projekty aktywne-aktywne. Nie trzeba synchronizować stanu aplikacji.

  • Typowe wady projektów aktywnych-pasywnych: Dłuższy, bardziej złożony proces odzyskiwania. Większe prawdopodobieństwo konieczności ręcznej interwencji w celu pomyślnego przejścia w tryb failover.

Notatka

Niezależnie od projektu wysokiej dostępności należy pamiętać o skonfigurowaniu redundancji dla usług pomocniczych, takich jak infrastruktura Azure DevOps, serwery przesiadkowe, monitorowanie i wszelkie inne krytyczne usługi niezbędne do administrowania obciążeniem.

Ułatwienia platformy Azure

  • usługa Azure Front Door łączy globalne funkcje routingu usługi Azure Traffic Manager z systemem dostarczania zawartości i zaporą aplikacji internetowej, aby ułatwić zarządzanie obciążeniem wysokiej dostępności.

  • Azure Cosmos DB to globalnie rozproszona platforma bazy danych NoSQL, która może pomóc w uruchomieniu środowiska aktywnego-aktywnego i zminimalizować prawdopodobieństwo przestoju w przypadku wystąpienia awarii regionalnej.

Lista kontrolna dotycząca niezawodności

Zapoznaj się z pełnym zestawem zaleceń.

lista kontrolna niezawodności