Opracowywanie planu ciągłości działania i odzyskiwania po awarii

Ukończone

Twoja organizacja zleciła Ci zaprojektowanie strategii odzyskiwania lokacji dla aplikacji. Najpierw należy zrozumieć konkretne wymagania dotyczące tworzenia usługi Site Recovery dla środowiska hybrydowego. Musisz również zrozumieć, jakie narzędzia są dostępne na platformie Azure, aby ci pomóc.

W tej lekcji dowiesz się, jak identyfikować kluczowe infrastruktury, cele czasu odzyskiwania (RTO) i cele punktu odzyskiwania (RPO). Dowiesz się, jakie wymagania mogą być istotne dla dowolnych usług platformy jako usługi (PaaS), których możesz używać. Dowiesz się również, jak zaplanować tworzenie kopii zapasowych i odzyskiwanie po awarii. Na koniec odkryjesz niektóre funkcje platformy Azure, które ułatwiają tworzenie rozwiązania do odzyskiwania lokacji.

Ciągłość działania i odzyskiwanie po awarii

Należy opracować plan BCDR, aby zaprojektować odpowiednie rozwiązanie do odzyskiwania lokacji. BcDR odnosi się do procesu, który pomaga przywrócić aplikacje do stanu funkcjonalnego po znaczącym zdarzeniu. To zdarzenie może być klęską żywiołową, taką jak trzęsienie ziemi. Może to być też charakter techniczny, taki jak usunięcie bazy danych. Te zdarzenia są zwykle szersze w zakresie i wymagają większego wysiłku w celu odzyskania sprawności.

Aby opracować pomyślny proces odzyskiwania po awarii, należy najpierw ocenić, jaki wpływ może mieć wpływ na działalność biznesową. Należy rozważyć automatyzację procesu odzyskiwania w jak największym możliwym stopniu. Nieuchronnie niektóre części procesu odzyskiwania po awarii obejmują dane wejściowe człowieka, więc należy w pełni udokumentować proces. Należy również regularnie symulować awarie, aby proces odzyskiwania pozostał skuteczny.

Identyfikowanie kluczowych zaangażowanych osób i infrastruktury

Zidentyfikuj wszystkich użytkowników zaangażowanych w zapewnianie ciągłości działania aplikacji. Mogą to być użytkownicy zewnętrzni lub wewnętrzni. Twój personel pomocy technicznej i każdy, kto jest wymagany do ręcznego wprowadzania danych w procesie BCDR, jest uczestnikiem projektu. Inne aplikacje i usługi, które opierają się na aplikacjach, mogą być również uczestnikami projektu.

Zidentyfikuj infrastrukturę składającą się na środowisko aplikacji. Ta infrastruktura jest zwykle maszynami wirtualnymi, zasobami sieciowymi, zasobami magazynu i innymi usługami, które działają obok tych zasobów.

Identyfikowanie celów punktu odzyskiwania i celów czasu odzyskiwania

Cel punktu odzyskiwania reprezentuje dopuszczalną utratę danych dla aplikacji, jeśli wystąpi awaria. Jeśli na przykład aplikacja nie działa, po odzyskaniu może być akceptowalne uruchomienie jej z użyciem danych nie starszych niż sprzed pół godziny. Niektóre aplikacje mogą działać ze starszymi danymi, ale dla innych kluczowe jest działanie z jak najnowszymi danymi.

Cel czasu odzyskiwania to maksymalny czas trwania akceptowalnego przestoju dla aplikacji. Na przykład może się okazać, że nie do przyjęcia jest, aby aplikacja była wyłączona przez dłużej niż cztery godziny z powodu potencjalnej straty dla firmy, która będzie miała dłuższy czas przestoju. Krytyczne aplikacje wymagają krótszego celu czasu odzyskiwania.

Diagram przedstawiający cel punktu odzyskiwania jako utratę danych i cel czasu odzyskiwania jako czas odzyskiwania po awarii.

Wymagania umowne lub regulacyjne często wpływają na cel punktu odzyskiwania i cel czasu odzyskiwania dla aplikacji. Cel punktu odzyskiwania i cel punktu odzyskiwania mogą również różnić się w zależności od aplikacji. Mniej krytyczne aplikacje mogą mieć większe wartości dla celu punktu odzyskiwania i celu punktu odzyskiwania, natomiast aplikacje krytyczne dla działania firmy mogą mieć mniejszą tolerancję przestojów i utraty danych. Obliczasz cel czasu odzyskiwania i cel punktu odzyskiwania na podstawie zrozumienia ryzyka i kosztu związanego z przestojami i utratą danych.

Identyfikowanie wymagań dotyczących architektury PaaS

Mimo że możesz mieć kontrolę nad przestojami i odzyskiwaniem zarządzanych aplikacji, być może nie masz takiej samej kontroli nad usługami PaaS. Wszystkie używane usługi PaaS mogą mieć własne gwarancje dostępności i plany odzyskiwania, które należy wziąć pod uwagę w planie BCDR.

Zidentyfikuj i utwórz spis usług, od których zależysz, aby umożliwić włączenie ich możliwości odzyskiwania do planu BCDR. Ważne jest, aby zrozumieć odpowiednie wymagania i sposób ich wpływu na proces BCDR.

Azure Site Recovery

Azure Site Recovery to usługa zapewniająca funkcje BCDR dla aplikacji na platformie Azure, lokalnych oraz u innych dostawców chmury. Usługa Site Recovery ma plany, które ułatwiają automatyzowanie odzyskiwania po awarii. Umożliwia zdefiniowanie sposobu przełączania maszyn w tryb failover oraz kolejności ich ponownego uruchomienia po pomyślnym przełączeniu w tryb failover. W ten sposób usługa Site Recovery pomaga zautomatyzować zadania i jeszcze bardziej zmniejszyć cel czasu odzyskiwania. Usługi Site Recovery można również używać do okresowego testowania trybu failover i ogólnej skuteczności procesu odzyskiwania.

Diagram przedstawiający rolę usługi Azure Site Recovery w replikowaniu obciążeń na trzech maszynach wirtualnych w regionie Wschodnie stany USA do regionu Zachodnie stany USA.

Kopie zapasowe danych

Kopie zapasowe pomagają chronić aplikacje przed przypadkowym usunięciem lub uszkodzeniem danych. Kopie zapasowe odgrywają ważną rolę w każdym planie BCDR.

Cel punktu odzyskiwania zależy od częstotliwości i częstotliwości uruchamiania procesów tworzenia kopii zapasowych. Jeśli na przykład masz proces tworzenia kopii zapasowej skonfigurowany do uruchamiania co dwie godziny i wystąpi awaria pięć minut przed następną kopią zapasową, utracisz jedną godzinę i 55 minut danych. Częstsze tworzenie kopii zapasowych oznacza skrócenie wartości RPO. W ogólnym planie należy uwzględnić szczegółowy proces tworzenia kopii zapasowych.

Możesz użyć usługi Azure Backup na potrzeby procesu tworzenia kopii zapasowej. Usługa Azure Backup zapewnia bezpieczną kopię zapasową dla wszystkich zasobów danych zarządzanych przez platformę Azure. Korzysta z rozwiązań infrastruktury zerowej, aby umożliwić samoobsługowe tworzenie kopii zapasowych i przywracanie z zarządzaniem na dużą skalę przy przewidywalnym koszcie.

Usługa Azure Backup oferuje wyspecjalizowane rozwiązania do tworzenia kopii zapasowych dla platformy Azure i lokalnych maszyn wirtualnych. Usługa Azure Backup umożliwia również obsługę obciążeń, takich jak SQL Server lub SAP HANA działających na maszynach wirtualnych platformy Azure, aby mieć opcje tworzenia i przywracania kopii zapasowych klasy korporacyjnej.

Zarówno usługa Azure Backup, jak i usługa Azure Site Recovery mają na celu zwiększenie odporności systemu na błędy i awarie. Jednak głównym celem usługi Azure Backup jest utrzymywanie kopii danych stanowych, które umożliwiają powrót w czasie. Usługa Site Recovery replikuje dane niemal w czasie rzeczywistym i umożliwia przejście w tryb failover. Dowiedz się więcej o usłudze Azure Backup.

Funkcje odporności platformy Azure

Platforma Azure oferuje kilka funkcji, które ułatwiają zapewnienie odporności aplikacji i infrastruktury. Funkcje odporności platformy Azure obejmują parowanie regionów, zestawy dostępności i strefy dostępności.

Parowanie regionów

Każdy region platformy Azure jest sparowany z innym regionem. Regiony znajdujące się w parze nigdy nie są aktualizowane jednocześnie. Zamiast tego są aktualizowane pojedynczo. Jeśli coś się stanie z jednym regionem, drugi region w parze stanie się dostępny.

Te pary regionów są też używane do replikacji. Usługi magazynu i wiele usług PaaS są replikowane i mają pary trybu failover w sparowanym regionie. W ramach planowania BCDR ważne jest użycie parowania regionów w celu skorzystania z izolacji, którą zapewnia. Możesz skrócić czas potrzebny na odzyskanie sprawności po awarii i zwiększenie dostępności.

Zestawy dostępności

Zestaw dostępności to możliwość logicznego grupowania na platformie Azure. Zasoby maszyn wirtualnych można umieścić w zestawie dostępności, aby upewnić się, że te zasoby maszyn wirtualnych są odizolowane od siebie podczas wdrażania w centrum danych platformy Azure. Zestawy dostępności składają się z domen aktualizacji i domen błędów.

Diagram przedstawiający domeny aktualizacji i domeny błędów w zestawie dostępności.

Domeny aktualizacji pomagają zagwarantować, że podzbiór serwerów aplikacji będzie działać, gdy hosty maszyn wirtualnych w centrum danych platformy Azure wymagają przestoju w celu przeprowadzenia konserwacji. Większość aktualizacji hostów maszyn wirtualnych można wykonać bez wpływu na uruchomione na nich maszyny wirtualne, ale zdarza się, że ten typ aktualizacji nie jest możliwy.

Aby zapewnić, że wszystkie maszyny wirtualne nie będą aktualizowane jednocześnie, centrum danych platformy Azure jest logicznie podzielone na domeny aktualizacji. Gdy wystąpi zdarzenie konserwacji, takie jak aktualizacja wydajności i krytyczna poprawka zabezpieczeń, która musi zostać zastosowana do hosta, zdarzenie konserwacji jest sekwencjonowane za pośrednictwem domen aktualizacji. Użycie sekwencjonowania za pośrednictwem domen aktualizacji zapewnia, że całe centrum danych nie jest dostępne podczas aktualizacji platformy i stosowania poprawek.

Domeny błędów reprezentują fizyczne sekcje centrum danych i pomagają zapewnić różnorodność serwerów w stojaku w zestawie dostępności. Domeny błędów są zgodne z fizycznym rozdzieleniem udostępnionego sprzętu w centrum danych. Udostępniony sprzęt obejmuje zasilanie, chłodzenie i sprzęt sieciowy, który obsługuje serwery fizyczne na stojakach serwerów.

Jeśli sprzęt obsługujący stojak serwerowy stanie się niedostępny, awaria wpłynie tylko na ten stojak serwerowy. Po ustawieniu maszyn wirtualnych w zestawie dostępności są one automatycznie rozłożone na wiele domen błędów. Jeśli wystąpi awaria sprzętowa, będzie to miało wpływ tylko na niektóre maszyny wirtualne.

Strefy dostępności

Strefy dostępności to niezależne fizyczne lokalizacje centrów danych w regionie. Strefy dostępności obejmują własne zasilanie, chłodzenie i sieć. W przypadku uwzględniania stref dostępności podczas wdrażania zasobów można chronić obciążenia przed awariami centrum danych, zachowując obecność w regionie.

Usługi strefowe to usługi (takie jak maszyny wirtualne), które można wdrożyć w określonych strefach w regionie. Inne usługi to usługi strefowo nadmiarowe i replikowane w różnych strefach dostępności w określonym regionie świadczenia usługi Azure. Oba typy pomagają zagwarantować, że w regionie świadczenia usługi Azure nie ma pojedynczych punktów awarii.

Diagram przedstawiający trzy strefy dostępności z awarią w jednym, ale nie ma wpływu na pozostałe dwa.

Sprawdź swoją wiedzę

1.

Jaka jest różnica między usługami Azure Backup i Azure Site Recovery?

2.

Jakie funkcje platformy Azure przyczyniają się do wysokiej dostępności maszyn wirtualnych?