Udostępnij za pośrednictwem


Niezawodność maszyn wirtualnych

Ten artykuł zawiera szczegółowe informacje na temat regionalnej odporności maszyny wirtualnej ze strefami dostępności i odzyskiwaniem po awarii między regionami oraz ciągłością działania.

Obsługa strefy dostępności

Strefy dostępności są fizycznie oddzielnymi grupami centrów danych w każdym regionie świadczenia usługi Azure. Gdy jedna strefa ulegnie awarii, usługi mogą przejść w tryb failover do jednej z pozostałych stref.

Aby uzyskać więcej informacji na temat stref dostępności na platformie Azure, zobacz Co to są strefy dostępności?.

Maszyny wirtualne obsługują strefy dostępności z trzema strefami dostępności na obsługiwany region platformy Azure, a także strefowo nadmiarowymi i strefowymi. Aby uzyskać więcej informacji, zobacz obsługa stref dostępności. Klient jest odpowiedzialny za konfigurowanie i migrowanie maszyn wirtualnych pod kątem dostępności.

Aby dowiedzieć się więcej na temat opcji gotowości strefy dostępności, zobacz:

Wymagania wstępne

  • Jednostki SKU maszyny wirtualnej muszą być dostępne w różnych strefach w danym regionie. Aby sprawdzić, które regiony obsługują strefy dostępności, zobacz listę obsługiwanych regionów.

  • Jednostki SKU maszyny wirtualnej muszą być dostępne w różnych strefach w Twoim regionie. Aby sprawdzić dostępność jednostki SKU maszyny wirtualnej, użyj jednej z następujących metod:

Ulepszenia umowy SLA

Ponieważ strefy dostępności są fizycznie oddzielone i zapewniają różne źródła zasilania, sieć i chłodzenie, umowy SLA (umowy dotyczące poziomu usług) zwiększają się. Aby uzyskać więcej informacji, zobacz Virtual Machines — umowa SLA.

Tworzenie zasobu z włączonymi strefami dostępności

Rozpocznij od utworzenia maszyny wirtualnej z włączoną strefą dostępności z poniższych opcji wdrażania:

Obsługa trybu failover strefowego

Maszyny wirtualne można skonfigurować tak, aby przełączyły się w tryb failover do innej strefy przy użyciu usługi Site Recovery. Aby uzyskać więcej informacji, zobacz Site Recovery.

Odporność na uszkodzenia

Maszyny wirtualne mogą przejść w tryb failover na inny serwer w klastrze, a system operacyjny maszyny wirtualnej zostanie uruchomiony ponownie na nowym serwerze. Należy zapoznać się z procesem przechodzenia w tryb failover na potrzeby odzyskiwania po awarii, zbierania maszyn wirtualnych w planowaniu odzyskiwania i uruchamiania próbnego odzyskiwania po awarii, aby zapewnić pomyślne rozwiązanie odporności na uszkodzenia.

Aby uzyskać więcej informacji, zobacz procesy odzyskiwania lokacji.

Środowisko strefowe w dół

Podczas awarii całej strefy należy oczekiwać krótkiego obniżenia wydajności, dopóki usługa maszyny wirtualnej nie zrównoważy bazowej pojemności, aby dostosować się do stref w dobrej kondycji. Samonaprawianie nie zależy od przywrócenia strefy; Oczekuje się, że stan samonaprawiania usługi zarządzanej przez firmę Microsoft rekompensuje utratę strefy przy użyciu pojemności z innych stref.

Należy również przygotować się na możliwość wystąpienia awarii całego regionu. Jeśli w całym regionie wystąpią przerwy w działaniu usługi, lokalnie nadmiarowe kopie danych będą tymczasowo niedostępne. Jeśli włączono replikację geograficzną, trzy inne kopie obiektów blob i tabel usługi Azure Storage są przechowywane w innym regionie. W przypadku całkowitej awarii regionalnej lub awarii, w której nie można odzyskać regionu podstawowego, platforma Azure ponownie mapuje wszystkie wpisy DNS do regionu replikowanego geograficznie.

Przygotowywanie i odzyskiwanie w strefie awarii

Poniżej przedstawiono wskazówki dotyczące maszyn wirtualnych platformy Azure podczas przerw w działaniu usługi w całym regionie, w którym wdrożono aplikację maszyny wirtualnej platformy Azure:

Projekt o małych opóźnieniach

Opcje między regionami (region pomocniczy), Subskrypcja między subskrypcjami (wersja zapoznawcza) i Między strefami (wersja zapoznawcza) są dostępne podczas projektowania rozwiązania maszyny wirtualnej o małych opóźnieniach. Aby uzyskać więcej informacji na temat tych opcji, zobacz obsługiwane metody przywracania.

Ważne

Rezygnacja z wdrożenia z obsługą stref pozwala zrezygnować z ochrony przed izolacją bazowych błędów. Korzystanie z jednostek SKU, które nie obsługują stref dostępności ani rezygnacji z konfiguracji strefy dostępności wymusza poleganie na zasobach, które nie przestrzegają umieszczania i oddzielania stref (w tym podstawowych zależności tych zasobów). Nie należy oczekiwać, że te zasoby przetrwają scenariusze w dół strefy. Rozwiązania korzystające z takich zasobów powinny definiować strategię odzyskiwania po awarii i konfigurować odzyskiwanie rozwiązania w innym regionie.

Bezpieczne techniki wdrażania

Jeśli zdecydujesz się na izolację stref dostępności, należy użyć bezpiecznych technik wdrażania dla kodu aplikacji i uaktualnień aplikacji. Oprócz konfigurowania usługi Azure Site Recovery i implementowania jednej z następujących technik bezpiecznego wdrażania maszyn wirtualnych:

Ponieważ firma Microsoft okresowo wykonuje aktualizacje planowanej konserwacji, mogą występować rzadkie wystąpienia, gdy te aktualizacje wymagają ponownego uruchomienia maszyny wirtualnej w celu zastosowania wymaganych aktualizacji do podstawowej infrastruktury. Aby dowiedzieć się więcej, zobacz zagadnienia dotyczące dostępności podczas zaplanowanej konserwacji.

Przed uaktualnieniem następnego zestawu węzłów w innej strefie należy wykonać następujące zadania:

Migrowanie do obsługi strefy dostępności

Aby dowiedzieć się, jak przeprowadzić migrację maszyny wirtualnej do obsługi stref dostępności, zobacz Migrowanie maszyn wirtualnych i zestawów skalowania maszyn wirtualnych do obsługi stref dostępności.

Odzyskiwanie po awarii między regionami i ciągłość działania

Odzyskiwanie po awarii dotyczy odzyskiwania po wystąpieniu zdarzeń o dużym wpływie, takich jak klęski żywiołowe lub nieudane wdrożenia, które powodują przestoje i utratę danych. Niezależnie od przyczyny najlepszym rozwiązaniem dla awarii jest dobrze zdefiniowany i przetestowany plan odzyskiwania po awarii oraz projekt aplikacji, który aktywnie obsługuje odzyskiwanie po awarii. Zanim zaczniesz myśleć o tworzeniu planu odzyskiwania po awarii, zobacz Zalecenia dotyczące projektowania strategii odzyskiwania po awarii.

Jeśli chodzi o odzyskiwanie po awarii, firma Microsoft korzysta z modelu wspólnej odpowiedzialności. W modelu wspólnej odpowiedzialności firma Microsoft zapewnia dostępność infrastruktury bazowej i usług platformy. Jednocześnie wiele usług platformy Azure nie replikuje automatycznie danych ani nie wraca z regionu, w którym wystąpił błąd, aby przeprowadzić replikację krzyżową do innego regionu z włączoną obsługą. W przypadku tych usług ponosisz odpowiedzialność za skonfigurowanie planu odzyskiwania po awarii, który działa dla obciążenia. Większość usług uruchamianych na platformie Azure jako usługa (PaaS) oferuje funkcje i wskazówki dotyczące obsługi odzyskiwania po awarii. Funkcje specyficzne dla usługi umożliwiają szybkie odzyskiwanie w celu ułatwienia opracowania planu odzyskiwania po awarii.

Przywracanie między regionami umożliwia przywracanie maszyn wirtualnych platformy Azure za pośrednictwem sparowanych regionów. Po przywróceniu między regionami można przywrócić wszystkie maszyny wirtualne platformy Azure dla wybranego punktu odzyskiwania, jeśli kopia zapasowa jest wykonywana w regionie pomocniczym. Aby uzyskać więcej informacji na temat przywracania między regionami, zapoznaj się z wpisem wiersza tabeli Między regionami w naszych opcjach przywracania.

Odzyskiwanie po awarii w lokalizacji geograficznej obejmującej wiele regionów

W przypadku zakłóceń usługi w całym regionie firma Microsoft pracuje pilnie, aby przywrócić usługę maszyny wirtualnej. Jednak nadal musisz polegać na innych strategiach tworzenia kopii zapasowych specyficznych dla aplikacji, aby osiągnąć najwyższy poziom dostępności. Aby uzyskać więcej informacji, zobacz sekcję Strategie danych na potrzeby odzyskiwania po awarii.

Wykrywanie, powiadamianie i zarządzanie awariami

Sprzęt lub infrastruktura fizyczna maszyny wirtualnej może nieoczekiwanie zakończyć się niepowodzeniem. Nieoczekiwane błędy mogą obejmować awarie sieci lokalnej, awarie dysku lokalnego lub inne awarie na poziomie stojaka. Po wykryciu platforma Azure automatycznie migruje (leczy) maszynę wirtualną do maszyny fizycznej w dobrej kondycji w tym samym centrum danych. Podczas wykonywania procedury naprawiania maszyny wirtualne doświadczają przestoju (ponownego rozruchu), a w niektórych przypadkach dochodzi do utraty dysku tymczasowego. Dołączone dyski systemu operacyjnego i danych są zawsze zachowywane.

Aby uzyskać bardziej szczegółowe informacje na temat przerw w działaniu usługi maszyny wirtualnej, zobacz Wskazówki dotyczące odzyskiwania po awarii.

Konfigurowanie odzyskiwania po awarii i wykrywania awarii

Podczas konfigurowania odzyskiwania po awarii dla maszyn wirtualnych zapoznaj się z tym, co zapewnia usługa Azure Site Recovery. Włącz odzyskiwanie po awarii dla maszyn wirtualnych przy użyciu poniższych metod:

Odzyskiwanie po awarii w lokalizacji geograficznej z jednym regionem

Dzięki konfiguracji odzyskiwania po awarii maszyny wirtualne platformy Azure są stale replikowane do innego regionu docelowego. Jeśli wystąpi awaria, możesz przejąć maszyny wirtualne w tryb failover do regionu pomocniczego i uzyskać do nich dostęp z tego miejsca.

Podczas replikowania maszyn wirtualnych platformy Azure przy użyciu usługi Site Recovery wszystkie dyski maszyn wirtualnych są stale replikowane do regionu docelowego asynchronicznie. Punkty odzyskiwania są tworzone co kilka minut, co daje cel punktu odzyskiwania (RPO) w ciągu kilku minut. Możesz przeprowadzić próbne odzyskiwanie po awarii tyle razy, ile chcesz, bez wpływu na aplikację produkcyjną lub trwającą replikację. Aby uzyskać więcej informacji, zobacz Uruchamianie próbnego odzyskiwania po awarii na platformie Azure.

Aby uzyskać więcej informacji, zobacz Składniki architektury i parowanie regionów maszyn wirtualnych platformy Azure.

Wydajność i proaktywna odporność odzyskiwania po awarii

Firma Microsoft i jej klienci działają w ramach modelu wspólnej odpowiedzialności. Wspólna odpowiedzialność oznacza, że w przypadku odzyskiwania po awarii z obsługą klienta (usług odpowiedzialnych za klienta) należy rozwiązać problem z odzyskiwaniem po awarii dla każdej wdrożonej i kontrolującej usługę. Aby zagwarantować, że odzyskiwanie jest aktywne, zawsze należy wstępnie wdrożyć pomocnicze, ponieważ nie ma gwarancji, że pojemność w czasie wpływu na osoby, które nie zostały wstępnie rozmieszczone.

W przypadku wdrażania maszyn wirtualnych można użyć trybu elastycznej aranżacji w zestawach skalowania maszyn wirtualnych. Wszystkie rozmiary maszyn wirtualnych mogą być używane w trybie elastycznej aranżacji. Elastyczny tryb orkiestracji oferuje również gwarancje wysokiej dostępności (do 1000 maszyn wirtualnych) przez rozłożenie maszyn wirtualnych w domenach błędów w regionie lub w strefie dostępności.

Następne kroki