Przełączanie do trybu failover i powrót po awarii przy użyciu usługi Azure Site Recovery

6 min

Usługa Azure Site Recovery umożliwia organizacji elastyczne przechodzenie w tryb failover ręcznie do pomocniczego regionu platformy Azure lub powrót po awarii do źródłowej maszyny wirtualnej. Najprostszym sposobem zarządzania tym procesem jest zarządzania ręczne w witrynie Azure Portal. Dostępne są inne opcje umożliwiające automatyzację, jeśli firma chce zautomatyzować wyzwalanie pracy w trybie failover. Te opcje obejmują technologie, takie jak tworzenie skryptów za pośrednictwem programu PowerShell lub konfigurowanie elementów Runbook w usłudze Azure Automation w celu organizowania trybu failover.

Teraz możesz przeprowadzić pełne przełączenie chronionej maszyny wirtualnej do trybu failover do regionu pomocniczego w ramach subskrypcji, korzystając z następujących kroków. Po pomyślnym zakończeniu pracy w trybie failover nastąpi powrót po awarii tej maszyny wirtualnej.

Podczas tej lekcji poznasz procesy przełączania w tryb failover i powrotu po awarii, a także sposób ponownego włączania ochrony maszyny wirtualnej przełączonej w tryb failover wirtualną i monitorowania stanu ponownej ochrony.

Co to jest tryb failover?

Diagram przedstawiający niedostępny region źródłowy i nowe środowisko docelowe jest przełączone w tryb failover.

Przełączenie w tryb failover odbywa się w przypadku podjęcia decyzji o wykonaniu planu odzyskiwania po awarii dla naszej organizacji. Istniejące środowisko produkcyjne chronione przez usługę Site Recovery jest replikowane do innego regionu. Środowisko docelowe staje się de facto środowiskiem produkcyjnym i staje się środowiskiem, w którym działają usługi produkcyjne organizacji. Po uaktywnieniu regionu docelowego środowisko źródłowe nie powinno być już używane. Wymusisz ten warunek, pozostawiając źródłowe maszyny wirtualne zatrzymane.

Zamknięcie źródłowych maszyn wirtualnych oferuje również inną korzyść. Korzystanie z zamkniętej maszyny wirtualnej powoduje minimalną utratę danych, ponieważ usługa Site Recovery czeka na zapisanie wszystkich danych na dysku przed wyzwoleniem trybu failover. Aby korzystać z tych danych i mieć najniższą możliwą wartość celu punktu odzyskiwania, wybieramy punkt odzyskiwania Najnowszy (najniższa wartość celu punktu odzyskiwania).

Zrzut ekranu przedstawiający opcje trybu failover.

Co to jest ponownie włączona ochrona i dlaczego jest ważna?

Gdy maszyna wirtualna zostanie przełączona w tryb failover, usługa Site Recovery replikacji nie jest już aktywna. Musisz ponownie włączyć ochronę, aby rozpocząć ochronę maszyny wirtualnej przełączonej w tryb failover. Ponieważ masz już infrastrukturę w innym regionie, możesz uruchomić replikację z powrotem do regionu źródłowego. Ponowna ochrona umożliwia usłudze Site Recovery rozpoczęcie replikacji nowego środowiska docelowego z powrotem do środowiska źródłowego, w którym zostało uruchomione.

Możesz użyć elastyczności przełączania pojedynczych maszyn wirtualnych w tryb failover lub przełączania w tryb failover przy użyciu planu odzyskiwania w celu ponownego włączania ochrony infrastruktury przełączonej w tryb failover. Ochronę maszyn wirtualnych możesz ponownie włączyć dla indywidulanych maszyn wirtualnych lub dla wielu maszyn wirtualnych za pomocą planu odzyskiwania.

Ponowne włączanie ochrony odbywa się w dowolnym momencie w przedziale od 45 minut do 2 godzin, w zależności od rozmiaru i typu maszyny wirtualnej. W przeciwieństwie do innych procesów usługi Site Recovery, które można monitorować, obserwując postęp zadania, należy wyświetlić postęp ponownej ochrony na poziomie maszyny wirtualnej. To wymaganie wynika z faktu, że faza synchronizacji nie jest wymieniona jako zadanie odzyskiwania lokacji.

Ten obraz przedstawia stan chronionego elementu z wyróżnioną wartością procentową ukończonej synchronizacji.

Zrzut ekranu przedstawiający stan maszyny wirtualnej z rekordami pacjentów z wyróżnioną wartością procentową zsynchronizowaną.

Co to jest powrót po awarii?

Powrót po awarii to proces odwrotny do przełączenia w tryb failover. Odbywa się on, gdy zakończone przełączenie w tryb failover do regionu pomocniczego zostało zatwierdzone i jest to teraz środowisko produkcyjne. Ponowne włączanie ochrony środowiska przełączonego w tryb failover zakończyło się, a środowisko źródłowe jest teraz jego repliką. W scenariuszu powrotu po awarii usługa Site Recovery przeprowadzi przełączenie w tryb failover z powrotem do źródłowych maszyn wirtualnych.

Proces kończenia powrotu po awarii jest taki sam jak w przypadku pracy w trybie failover, nawet w przypadku ponownego użycia planu odzyskiwania. Wybranie trybu failover w planie odzyskiwania ma pozycję z ustawioną na region docelowy i pozycję do ustawioną na region źródłowy.

Zarządzanie trybami failover

Usługa Site Recovery może uruchamiać operacje przełączenia w tryb failover na żądanie. Testy pracy w trybie failover są izolowane, co oznacza, że nie wpływają na usługi produkcyjne. Ta elastyczność umożliwia uruchamianie trybu failover bez przerywania pracy użytkowników systemu. Elastyczność sprawdza się też w odwrotnej sytuacji — umożliwia powrót po awarii na żądanie w ramach zaplanowanego testu lub jako część w pełni wywołanego procesu odzyskiwania po awarii.

Plany odzyskiwania w usłudze Site Recovery umożliwiają również dostosowywanie i sekwencjonowanie trybu failover i powrotu po awarii. Plany umożliwiają grupowanie maszyn i obciążeń.

Elastyczność może również dotyczyć sposobu wyzwalania procesu przełączania do trybu failover. Operacje ręcznego przełączania w tryb failover można łatwo wykonać w witrynie Azure Portal. Wykonywanie skryptów programu PowerShell lub używanie elementów runbook w usłudze Azure Automation powoduje również udostępnienie opcji automatyzacji.

Rozwiązywanie problemów dotyczących trybu failover

Mimo że usługa Site Recovery została zautomatyzowana, nadal mogą występować błędy. Na poniższej liście przedstawiono trzy najczęściej występujące problemy. Aby zapoznać się z pełną listą problemów i sposobami ich rozwiązywania, zobacz link w sekcji podsumowania.

Problemy z limitami przydziałów zasobów platformy Azure

Usługa Site Recovery musi tworzyć zasoby w różnych regionach. Jeśli nasza subskrypcja nie jest w stanie wykonać tej czynności, replikacja nie powiedzie się. Ten błąd występuje również, gdy nasza subskrypcja nie ma odpowiednich limitów przydziałów, aby tworzyć maszyny wirtualne odpowiadające rozmiarowi źródłowych maszyn wirtualnych.

Można to naprawić, kontaktując się z pomocą techniczną dotyczącą rozliczeń platformy Azure i żądając, aby utworzyli odpowiednie maszyny wirtualne o rozmiarze w wymaganym regionie docelowym.

Co najmniej jeden dysk jest dostępny do ochrony

Ten błąd występuje, jeśli zakończono konfigurowanie usługi Site Recovery dla maszyn wirtualnych. Następnie dodano lub zainicjowano dodatkowe dyski.

Aby naprawić ten błąd, można dodać replikację dla nowo dodanych dysków lub wybrać ignorowanie ostrzeżenia dysku.

Zaufane certyfikaty główne

Sprawdź, czy są zainstalowano najnowsze certyfikaty główne, aby umożliwić usłudze Site Recovery bezpieczne komunikowanie się z maszynami wirtualnymi i ich uwierzytelnianie na potrzeby replikacji. Ten błąd może pojawić się, jeśli maszyny wirtualne nie mają zastosowanych najnowszych aktualizacji. Zaktualizuj maszyny wirtualne z systemami Windows i Linux, aby usługa Site Recovery mogła włączyć replikację.

Korekta różni się w zależności od systemu operacyjnego. System Windows jest tak prosty, jak zapewnienie włączenia automatycznej aktualizacji systemu Windows i zastosowanie aktualizacji. W przypadku każdej dystrybucji systemu Linux należy postępować zgodnie ze wskazówkami udostępnionymi przez dystrybutora.