Konfigurowanie odzyskiwania po awarii na dużą skalę dla maszyn wirtualnych VMware/serwerów fizycznych

Artykuł
09/27/2024

W tym artykule opisano sposób konfigurowania odzyskiwania po awarii na platformie Azure dla dużych liczb (> 1000) lokalnych maszyn wirtualnych VMware lub serwerów fizycznych w środowisku produkcyjnym przy użyciu usługi Azure Site Recovery .

Definiowanie strategii BCDR

W ramach strategii ciągłości działania i odzyskiwania po awarii (BCDR) definiuje się cele punktu odzyskiwania (RPO) i cele czasu odzyskiwania (RTO) dla aplikacji i obciążeń biznesowych. Cel czasu odzyskiwania mierzy czas trwania i poziom usług, w ramach którego należy przywrócić i udostępnić aplikację biznesową lub proces, aby uniknąć problemów z ciągłością.

Usługa Site Recovery zapewnia ciągłą replikację maszyn wirtualnych VMware i serwerów fizycznych oraz umowę SLA dla celu czasu odzyskiwania.
Podczas planowania odzyskiwania po awarii na dużą skalę dla maszyn wirtualnych VMware i określania potrzebnych zasobów platformy Azure możesz określić wartość celu czasu odzyskiwania, która będzie używana do obliczeń pojemności.

Najlepsze rozwiązania

Niektóre ogólne najlepsze rozwiązania dotyczące odzyskiwania po awarii na dużą skalę. Te najlepsze rozwiązania zostały omówione bardziej szczegółowo w kolejnych sekcjach dokumentu.

Zidentyfikuj wymagania docelowe: przed skonfigurowaniem odzyskiwania po awarii należy oszacować wymagania dotyczące pojemności i zasobów na platformie Azure.
Planowanie składników usługi Site Recovery: określ, jakie składniki usługi Site Recovery (serwer konfiguracji, serwery przetwarzania) muszą spełniać szacowaną pojemność.
Skonfiguruj co najmniej jeden serwer przetwarzania skalowalnego w poziomie: nie używaj serwera przetwarzania, który jest domyślnie uruchomiony na serwerze konfiguracji.
Uruchom najnowsze aktualizacje: zespół usługi Site Recovery regularnie publikuje nowe wersje składników usługi Site Recovery i upewnij się, że korzystasz z najnowszych wersji. Aby to ułatwić, śledź nowości dotyczące aktualizacji i włączaj i instaluj aktualizacje w miarę ich wydawania.
Proaktywne monitorowanie: w miarę uruchamiania odzyskiwania po awarii należy aktywnie monitorować stan i kondycję replikowanych maszyn oraz zasoby infrastruktury.
Próbne odzyskiwanie po awarii: należy regularnie uruchamiać próbne odzyskiwanie po awarii. Nie mają one wpływu na środowisko produkcyjne, ale pomagają zapewnić, że przejście w tryb failover na platformę Azure będzie działać zgodnie z oczekiwaniami w razie potrzeby.

Zbieranie informacji o planowaniu pojemności

Zbierz informacje o środowisku lokalnym, aby ułatwić ocenę i oszacowanie potrzeb związanych z pojemnością docelową (Azure).

W przypadku programu VMware uruchom planistę wdrażania dla maszyn wirtualnych VMware, aby to zrobić.
W przypadku serwerów fizycznych zbierz informacje ręcznie.

Uruchamianie planisty wdrażania dla maszyn wirtualnych VMware

Planista wdrażania pomaga zebrać informacje o środowisku lokalnym programu VMware.

Uruchom planistę wdrażania w okresie, który reprezentuje typowy współczynnik zmian dla maszyn wirtualnych. Spowoduje to wygenerowanie bardziej dokładnych szacunków i zaleceń.
Zalecamy uruchomienie planisty wdrażania na maszynie serwera konfiguracji, ponieważ planista oblicza przepływność z serwera, na którym jest uruchomiony. Dowiedz się więcej o mierzeniu przepływności.
Jeśli nie masz jeszcze konfiguracji serwera konfiguracji:
- Zapoznaj się z omówieniem składników usługi Site Recovery.
- Skonfiguruj serwer konfiguracji, aby uruchomić planistę wdrażania na nim.

Następnie uruchom planistę w następujący sposób:

Dowiedz się więcej na temat planisty wdrażania. Najnowszą wersję można pobrać z portalu lub pobrać bezpośrednio.
Zapoznaj się z wymaganiami wstępnymi i najnowszymi aktualizacjami planisty wdrażania oraz pobierz i wyodrębnij narzędzie.
Uruchom planistę wdrażania na serwerze konfiguracji.
Wygeneruj raport , aby podsumować szacowania i zalecenia.
Analizowanie zaleceń raportu i szacowania kosztów.

Uwaga

Domyślnie narzędzie jest skonfigurowane do profilowania i generuje raport dla maksymalnie 1000 maszyn wirtualnych. Ten limit można zmienić, zwiększając wartość klucza MaxVMsSupported w pliku ASRDeploymentPlanner.exe.config.

Planowanie wymagań i pojemności docelowej (azure)

Korzystając z zebranych szacunków i zaleceń, możesz zaplanować docelowe zasoby i pojemność. Jeśli uruchomiono planistę wdrażania dla maszyn wirtualnych VMware, możesz użyć wielu zaleceń raportu, aby ci pomóc.

Zgodne maszyny wirtualne: użyj tej liczby, aby zidentyfikować liczbę maszyn wirtualnych, które są gotowe do odzyskiwania po awarii na platformie Azure. Zalecenia dotyczące przepustowości sieci i rdzeni platformy Azure są oparte na tej liczbie.
Wymagana przepustowość sieci: zwróć uwagę na przepustowość wymaganą do replikacji różnicowej zgodnych maszyn wirtualnych.
- Po uruchomieniu planisty określ żądany cel punktu odzyskiwania w minutach. Zalecenia pokazują przepustowość wymaganą do spełnienia tego celu punktu odzyskiwania przez 100% i 90% czasu.
- Zalecenia dotyczące przepustowości sieci uwzględniają przepustowość wymaganą dla całkowitej liczby serwerów konfiguracji i serwerów przetwarzania zalecanych w narzędziu Planner.
Wymagane rdzenie platformy Azure: zwróć uwagę na liczbę rdzeni potrzebnych w docelowym regionie świadczenia usługi Azure na podstawie liczby zgodnych maszyn wirtualnych. Jeśli nie masz wystarczającej liczby rdzeni, usługa Site Recovery w trybie failover nie będzie mogła utworzyć wymaganych maszyn wirtualnych platformy Azure.
Zalecany rozmiar partii maszyny wirtualnej: zalecany rozmiar partii jest oparty na możliwości zakończenia replikacji początkowej dla partii w ciągu 72 godzin domyślnie podczas spotkania z celem punktu odzyskiwania o wartości 100%. Wartość godziny można zmodyfikować.

Możesz użyć tych zaleceń, aby zaplanować przetwarzanie wsadowe zasobów platformy Azure, przepustowości sieci i maszyn wirtualnych.

Planowanie subskrypcji i limitów przydziału platformy Azure

Chcemy upewnić się, że dostępne limity przydziału w subskrypcji docelowej są wystarczające do obsługi trybu failover.

Zadanie podrzędne	Szczegóły	Akcja
Sprawdzanie rdzeni	Jeśli rdzenie dostępnego limitu przydziału nie są równe lub przekraczają łączną liczbę obiektów docelowych w czasie przejścia w tryb failover, przełączenia w tryb failover nie powiedzą się.	W przypadku maszyn wirtualnych VMware sprawdź, czy masz wystarczającą liczbę rdzeni w subskrypcji docelowej, aby spełnić podstawowe zalecenie planisty wdrożenia. W przypadku serwerów fizycznych sprawdź, czy rdzenie platformy Azure spełniają szacowane ręcznie. Aby sprawdzić limity przydziału, w subskrypcji witryny Azure Portal> kliknij pozycję Użycie i limity przydziału. Dowiedz się więcej o zwiększaniu limitów przydziału.
Sprawdzanie limitów trybu failover	Liczba trybów failover nie może przekraczać limitów trybu failover usługi Site Recovery.	Jeśli przejścia w tryb failover przekraczają limity, możesz dodać subskrypcje i przejść w tryb failover do wielu subskrypcji lub zwiększyć limit przydziału dla subskrypcji.

Limity trybu failover

Limity wskazują liczbę trybów failover obsługiwanych przez usługę Site Recovery w ciągu jednej godziny, przy założeniu, że trzy dyski na maszynę.

Co oznacza zgodność? Aby uruchomić maszynę wirtualną platformy Azure, platforma Azure wymaga, aby niektóre sterowniki zostały uruchomione w stanie uruchamiania rozruchu, a usługi, takie jak DHCP, mają być uruchamiane automatycznie.

Maszyny, które są zgodne, będą już miały te ustawienia.
W przypadku maszyn z systemem Windows można aktywnie sprawdzać zgodność i w razie potrzeby zapewnić ich zgodność. Dowiedz się więcej.
Maszyny z systemem Linux są wprowadzane tylko do zgodności w momencie przejścia w tryb failover.

Maszyna jest zgodna z platformą Azure?	Limity maszyn wirtualnych platformy Azure (tryb failover dysku zarządzanego)
Tak	2000
Nie.	1000

Limity zakładają, że minimalne inne zadania są w toku w regionie docelowym dla subskrypcji.
Niektóre regiony platformy Azure są mniejsze i mogą mieć nieco niższe limity.

Planowanie infrastruktury i łączności maszyn wirtualnych

Po przejściu w tryb failover na platformę Azure potrzebne są obciążenia, tak jak w środowisku lokalnym, oraz aby umożliwić użytkownikom dostęp do obciążeń działających na maszynach wirtualnych platformy Azure.

Dowiedz się więcej na temat przechodzenia w tryb failover infrastruktury lokalnej usługi Active Directory lub dns na platformę Azure.
Dowiedz się więcej na temat przygotowywania do nawiązywania połączenia z maszynami wirtualnymi platformy Azure po przejściu w tryb failover.

Planowanie pojemności źródłowej i wymagań

Ważne jest, aby mieć wystarczające serwery konfiguracji i serwery przetwarzania skalowalnego w poziomie, aby spełnić wymagania dotyczące pojemności. Po rozpoczęciu wdrażania na dużą skalę zacznij od pojedynczego serwera konfiguracji i pojedynczego serwera przetwarzania skalowalnego w poziomie. Po osiągnięciu określonych limitów dodaj dodatkowe serwery.

Uwaga

W przypadku maszyn wirtualnych VMware planista wdrażania udostępnia kilka zaleceń dotyczących potrzebnych serwerów konfiguracji i przetwarzania. Zalecamy używanie tabel zawartych w poniższych procedurach zamiast wykonywania zaleceń planisty wdrażania.

Konfigurowanie serwera konfiguracji

Wydajność serwera konfiguracji ma wpływ na liczbę replik maszyn, a nie przez współczynnik zmian danych. Aby ustalić, czy potrzebujesz dodatkowych serwerów konfiguracji, użyj tych zdefiniowanych limitów maszyn wirtualnych.

CPU	Pamięć	Dysk pamięci podręcznej	Limit replikowanej maszyny
8 procesorów wirtualnych 2 gniazda * 4 rdzenie @ 2,5 Ghz	16 GB	600 GB	Do 550 maszyn Przyjęto założenie, że każda maszyna ma trzy dyski o pojemności 100 GB.

Te limity są oparte na konfiguracji serwera konfiguracji przy użyciu szablonu OVF.
Limity zakładają, że nie używasz serwera przetwarzania, który jest domyślnie uruchomiony na serwerze konfiguracji.

Jeśli musisz dodać nowy serwer konfiguracji, wykonaj następujące instrukcje:

Skonfiguruj serwer konfiguracji na potrzeby odzyskiwania po awarii maszyny wirtualnej VMware przy użyciu szablonu OVF.
Skonfiguruj serwer konfiguracji ręcznie dla serwerów fizycznych lub wdrożeń VMware, które nie mogą używać szablonu OVF.

Podczas konfigurowania serwera konfiguracji należy pamiętać, że:

Podczas konfigurowania serwera konfiguracji należy wziąć pod uwagę subskrypcję i magazyn, w którym się znajduje, ponieważ nie należy ich zmieniać po skonfigurowaniu. Jeśli musisz zmienić magazyn, musisz usunąć skojarzenie serwera konfiguracji z magazynu i ponownie go zarejestrować. Spowoduje to zatrzymanie replikacji maszyn wirtualnych w magazynie.
Jeśli chcesz skonfigurować serwer konfiguracji z wieloma kartami sieciowymi, należy to zrobić podczas konfigurowania. Nie można tego zrobić po zarejestrowaniu serwera konfiguracji w magazynie.

Konfigurowanie serwera przetwarzania

Wydajność serwera przetwarzania ma wpływ na współczynnik zmian danych, a nie przez liczbę maszyn, które są włączone do replikacji.

W przypadku dużych wdrożeń zawsze należy mieć co najmniej jeden serwer przetwarzania skalowalnego w poziomie.
Aby dowiedzieć się, czy potrzebujesz dodatkowych serwerów, skorzystaj z poniższej tabeli.
Zalecamy dodanie serwera o najwyższej specyfikacji.

CPU	Pamięć	Dysk pamięci podręcznej	Współczynnik zmian
12 procesorów wirtualnych 2 gniazda*6 rdzeni @ 2,5 Ghz	24 GB	1 TB	Do 2 TB dziennie

Skonfiguruj serwer przetwarzania w następujący sposób:

Przejrzyj wymagania wstępne.
Zainstaluj serwer w portalu lub z poziomu wiersza polecenia.
Skonfiguruj replikowane maszyny do korzystania z nowego serwera. Jeśli masz już replikowanie maszyn:
- Całe obciążenie serwera przetwarzania można przenieść na nowy serwer przetwarzania.
- Alternatywnie można przenieść określone maszyny wirtualne na nowy serwer przetwarzania.

Włączanie replikacji na dużą skalę

Po zaplanowaniu pojemności i wdrożeniu wymaganych składników i infrastruktury włącz replikację dla dużej liczby maszyn wirtualnych.

Sortuj maszyny w partie. Włączysz replikację dla maszyn wirtualnych w partii, a następnie przejdziesz do następnej partii.
- W przypadku maszyn wirtualnych VMware można użyć zalecanego rozmiaru partii maszyn wirtualnych w raporcie Planista wdrażania.
- W przypadku maszyn fizycznych zalecamy zidentyfikowanie partii na podstawie maszyn, które mają podobny rozmiar i ilość danych oraz dostępną przepływność sieci. Celem jest wsadowe maszyny, które prawdopodobnie zakończą replikację początkową w mniej więcej tym samym czasie.
Jeśli współczynnik zmian dysku dla maszyny jest wysoki lub przekracza limity we wdrożeniu programu Deployment thePlanner, możesz przenosić pliki niekrytyczne, których nie trzeba replikować (np. zrzutów dzienników lub plików tymczasowych) poza maszyną. W przypadku maszyn wirtualnych VMware można przenieść te pliki na oddzielny dysk, a następnie wykluczyć ten dysk z replikacji.
Przed włączeniem replikacji sprawdź, czy maszyny spełniają wymagania replikacji.
Skonfiguruj zasady replikacji dla maszyn wirtualnych VMware lub serwerów fizycznych.
Włącz replikację dla maszyn wirtualnych VMware lub serwerów fizycznych. Spowoduje to rozpoczęcie replikacji początkowej dla wybranych maszyn.

Monitorowanie wdrożenia

Po rozpoczęciu replikacji dla pierwszej partii maszyn wirtualnych rozpocznij monitorowanie wdrożenia w następujący sposób:

Przypisz administratora odzyskiwania po awarii, aby monitorować stan kondycji replikowanych maszyn.
Monitorowanie zdarzeń dla replikowanych elementów i infrastruktury.
Monitorowanie kondycji serwerów przetwarzania skalowalnego w poziomie.
Zarejestruj się, aby otrzymywać powiadomienia e-mail dotyczące zdarzeń, aby ułatwić monitorowanie.
Przeprowadzaj regularne próby odzyskiwania po awarii, aby upewnić się, że wszystko działa zgodnie z oczekiwaniami.

Planowanie trybu failover na dużą skalę

W przypadku awarii może być konieczne przełączenie dużej liczby maszyn/obciążeń na platformę Azure w tryb failover. Przygotuj się do tego typu zdarzenia w następujący sposób.

Możesz przygotować się z wyprzedzeniem do przejścia w tryb failover w następujący sposób:

Przygotuj infrastrukturę i maszyny wirtualne, aby obciążenia będą dostępne po przejściu w tryb failover i aby użytkownicy mogli uzyskiwać dostęp do maszyn wirtualnych platformy Azure.
Zwróć uwagę na limity trybu failover wcześniej w tym dokumencie. Upewnij się, że przejścia w tryb failover będą mieścić się w tych limitach.
Uruchom regularne próbne odzyskiwanie po awarii. Pomoc dotycząca przechodzenia do szczegółów:
- Znajdź luki we wdrożeniu przed przejściem w tryb failover.
- Szacowanie kompleksowego celu czasu odzyskiwania dla aplikacji.
- Szacowanie kompleksowego celu punktu odzyskiwania dla obciążeń.
- Identyfikowanie konfliktów zakresu adresów IP.
- Podczas uruchamiania próbnego zalecamy, aby nie używać sieci produkcyjnych do testowania przechodzenia do szczegółów i czyszczenia testowych trybów failover po każdym przejściu do szczegółów.

Aby uruchomić tryb failover na dużą skalę, zalecamy wykonanie następujących czynności:

Tworzenie planów odzyskiwania dla trybu failover obciążenia.
- Każdy plan odzyskiwania może wyzwalać tryb failover maksymalnie 100 maszyn.
- Dowiedz się więcej o planach odzyskiwania.
Dodaj skrypty elementu Runbook usługi Azure Automation do planów odzyskiwania, aby zautomatyzować wszystkie zadania ręczne na platformie Azure. Typowe zadania obejmują konfigurowanie modułów równoważenia obciążenia, aktualizowanie systemu DNS itp. Dowiedz się więcej
Przed przejściem w tryb failover przygotuj maszyny z systemem Windows, aby były zgodne ze środowiskiem platformy Azure. Limity trybu failover są wyższe dla maszyn, które są zgodne. Dowiedz się więcej o elementach Runbook.
Wyzwalanie trybu failover za pomocą polecenia cmdlet Start-AzRecoveryServicesAsrPlannedFailoverJob programu PowerShell wraz z planem odzyskiwania.

Następne kroki

Monitorowanie usługi Site Recovery

Udostępnij za pośrednictwem