Vytvoření plánu provozní kontinuity a zotavení po havárii

10 min

Vaše organizace chce, abyste navrhli strategii obnovení lokality pro vaše aplikace. Nejprve byste měli porozumět konkrétním požadavkům pro vytváření site recovery pro vaše hybridní prostředí. Musíte také pochopit, jaké nástroje jsou k dispozici v Azure, které vám pomůžou.

V této lekci se dozvíte, jak identifikovat klíčové infrastruktury, cíle doby obnovení (RTO) a cíle bodů obnovení (RPO). Dozvíte se, jaké požadavky můžou být relevantní pro všechny služby paaS (platforma jako služba), které možná používáte. Naučíte se také plánovat zálohování a zotavení po havárii. Nakonec zjistíte některé funkce Azure, které vám pomůžou vytvořit řešení site recovery.

Provozní kontinuita a zotavení po havárii

Potřebujete vytvořit plán BCDR pro návrh vhodného řešení obnovení lokality. BCDR odkazuje na proces, který pomáhá obnovit aplikace do funkčního stavu po významné události. Tato událost může být přírodní katastrofa, například zemětřesení. Nebo to může být technické povahy, například odstranění databáze. Tyto události jsou obvykle širší v rozsahu a zahrnují větší úsilí na zotavení.

Pokud chcete navrhnout úspěšný proces zotavení po havárii, musíte nejprve vyhodnotit, jaký druh obchodního dopadu by mohlo dojít k potenciálním selháním. Zvažte možnost proces zotavování co nejvíce automatizovat. Některé části procesu zotavení po havárii nutně zahrnují vstup člověka, takže musíte celý proces zdokumentovat. Musíte také pravidelně simulovat havárie, aby proces obnovení zůstal efektivní.

Identifikace hlavních účastníků a infrastruktury

Identifikujte všechny osoby, kterých se zachování provozu aplikací přímo týká. Těmi můžou být jak externí, tak interní uživatelé. Pracovníci podpory a každý, kdo vyžaduje ruční vstup v procesu BCDR, je účastníkem. Další aplikace a služby, které spoléhají na vaše aplikace, mohou být také účastníky.

Identifikujte infrastrukturu, která utváří prostředí pro vaše aplikace. Tato infrastruktura je obvykle virtuální počítače, síťové prostředky, prostředky úložiště a všechny další služby, které spolu s těmito prostředky běží.

Identifikace cílů bodu obnovení a časových cílů obnovení

RPO představuje, kolik ztráty dat je pro vaši aplikaci přijatelné, pokud dojde k havárii. Pokud vaše aplikace přestane fungovat, můžete za přijatelné považovat například jen to, že po zotavení nebude aplikace používat data starší než půl hodiny. Některé aplikace můžou fungovat i se staršími daty, ale pro jiné je naprosto nezbytné, aby pracovaly s nejnovějšími možnými daty.

RtO je maximální přijatelná doba trvání výpadku pro vaši aplikaci. Můžete například zjistit, že je nepřijatelné, aby vaše aplikace přestala být delší než čtyři hodiny kvůli potenciální ztrátě firmy, která by přišla s delším výpadkem. Kritické aplikace vyžadují kratší RTO.

Smluvní nebo zákonné požadavky můžou často ovlivnit cíle bodu obnovení a rtO pro vaši aplikaci. RPO a RTO se také můžou lišit v jednotlivých aplikacích. Méně důležité aplikace můžou mít větší hodnoty pro RPO a RTO, zatímco důležité obchodní aplikace můžou mít menší toleranci pro výpadky a ztrátu dat. Spočítáte plánovanou dobu obnovení a cíl bodu obnovení na základě porozumění riziku a nákladům vzniklým při výpadku a ztrátě dat.

Identifikace všech požadavků PaaS

I když máte kontrolu nad výpadky a obnovením pro aplikace, které spravujete, možná nemáte stejnou kontrolu nad službami PaaS. Všechny služby PaaS, které používáte, můžou mít vlastní záruky dostupnosti a plány obnovení, které je nutné zvážit v plánu BCDR.

Identifikujte a inventarizovat služby, na kterých jste závislí, abyste mohli začlenit jejich možnosti obnovení do plánu BCDR. Je důležité porozumět relevantním požadavkům a tomu, jak ovlivňují proces BCDR.

Azure Site Recovery

Azure Site Recovery je služba, která nabízí funkce BCDR pro aplikace v Azure, v místní infrastruktuře i u jiných poskytovatelů cloudu. Site Recovery má plány, které pomáhají automatizovat zotavení po havárii. Umožňuje definovat způsob převzetí služeb při selhání počítačů a pořadí restartování po úspěšném převzetí služeb při selhání. Site Recovery tímto způsobem pomáhá automatizovat úlohy a dále snižovat rto. Site Recovery můžete také použít k pravidelnému testování převzetí služeb při selhání a celkové efektivitě procesu obnovení.

Zálohy dat

Zálohy pomáhají chránit aplikace před náhodným odstraněním nebo poškozením dat. V jakémkoli plánu BCDR mají zálohy důležitou roli.

Cíl bodu obnovení závisí na tom, jak často a jak často spouštíte procesy zálohování. Pokud máte například proces zálohování nakonfigurovaný tak, aby běžel každých dvě hodiny a před dalším zálohováním dojde k havárii pět minut, přijdete o jednu hodinu a 55 minut dat. Častější zálohování znamená, že dosáhnete nižšího RPO. Do celkového plánu je nutné zahrnout podrobný proces zálohování.

Azure Backup můžete použít pro svůj proces zálohování. Služba Azure Backup poskytuje zabezpečené zálohování všech datových prostředků spravovaných Azure. Využívá řešení nulové infrastruktury k povolení samoobslužných záloh a obnovení s předvídatelnými náklady na správu ve velkém měřítku.

Azure Backup nabízí specializovaná řešení zálohování pro Azure a místní virtuální počítače. Azure Backup také umožňuje úlohám, jako je SQL Server nebo SAP HANA běžící na virtuálních počítačích Azure, mít možnosti zálohování a obnovení na podnikové úrovni.

Azure Backup i Azure Site Recovery cílí na to, aby byl systém odolnější vůči chybám a selháním. Primárním cílem služby Azure Backup je ale udržovat kopie stavových dat, které vám umožní vrátit se v čase. Site Recovery replikuje data téměř v reálném čase a umožňuje převzetí služeb při selhání. Přečtěte si další informace o službě Azure Backup.

Funkce odolnosti Azure

Azure nabízí několik funkcí, které pomáhají zajistit odolnost vašich aplikací a infrastruktury. Mezi funkce odolnosti Azure patří párování oblastí, skupiny dostupnosti a zóny dostupnosti.

Párování oblastí

Všechny oblasti Azure se párují s jinou oblastí. V jednom páru oblastí se oblasti nikdy neaktualizují zároveň. Místo toho se aktualizují o jeden po druhém. Pokud se něco stane s jednou oblastí, zpřístupní se druhá oblast v páru.

Tyto páry oblastí se používají i k replikaci. Služby úložiště a řada služeb PaaS se replikují a mají páry převzetí služeb při selhání ve spárované oblasti. V rámci plánování BCDR je důležité využít párování oblastí k využití izolace, kterou poskytuje. Dobu potřebnou k zotavení po selhání a zvýšení dostupnosti můžete zkrátit.

Skupiny dostupnosti

Skupina dostupnosti je logická funkce seskupení v Azure. Prostředky virtuálních počítačů můžete umístit do skupiny dostupnosti, abyste zajistili, že jsou tyto prostředky virtuálních počítačů izolované od sebe, když jsou nasazené v datacentru Azure. Skupiny dostupnosti se skládají z aktualizačních domén a domén selhání.

Aktualizační domény pomáhají zajistit, aby podmnožina serverů vaší aplikace zůstala spuštěná, když hostitelé virtuálních počítačů v datacentru Azure vyžadují výpadek pro údržbu. Většinu aktualizací hostitelů virtuálních počítačů je možné provést bez ovlivnění virtuálních počítačů spuštěných na nich, ale existují situace, kdy tento typ aktualizace není možný.

Aby bylo jisté, že se nebudou aktualizovat všechny virtuální počítače najednou, je datacentrum Azure logicky rozdělené na aktualizační domény. Když dojde k události údržby, jako je aktualizace výkonu a důležitá oprava zabezpečení, kterou je potřeba použít na hostitele, bude tato událost údržby sekvencována prostřednictvím aktualizačních domén. Použití sekvencování prostřednictvím aktualizačních domén zajišťuje, že během aktualizací a oprav platformy nebude k dispozici celé datové centrum.

Domény selhání představují fyzické části datacentra a pomáhají zajistit rozmanitost serverů v racku ve skupině dostupnosti. Domény selhání odpovídají fyzickému oddělení sdíleného hardwaru v datacentru. Sdílený hardware zahrnuje napájení, chlazení a síťový hardware, který podporuje fyzické servery na serverových rackech.

Pokud se hardware, který podporuje serverový rack, stane nedostupným, výpadek ovlivní pouze tento serverový rack. Když umístíte virtuální počítače do skupiny dostupnosti, automaticky se rozdělí mezi několik domén selhání. Pokud dojde k selhání hardwaru, ovlivní to jenom některé z vašich virtuálních počítačů.

Zóny dostupnosti

Zóny dostupnosti jsou nezávislá umístění fyzických datacenter v rámci oblasti. Zóny dostupnosti zahrnují vlastní napájení, chlazení a sítě. Když při nasazování prostředků berete v úvahu zóny dostupnosti, můžete chránit úlohy před výpadky datacentra při zachování přítomnosti v oblasti.

Zónové služby jsou služby (například virtuální počítače), které můžete nasadit do konkrétních zón v rámci oblasti. Další služby jsou zónově redundantní služby a replikují se napříč zónami dostupnosti v konkrétní oblasti Azure. Oba typy pomáhají zajistit, aby v rámci oblasti Azure nedošlo k žádným kritickým bodům selhání.

Kontrola znalostí

Jaký je rozdíl mezi Azure Backup a Azure Site Recovery?

Azure Site Recovery pomáhá chránit virtuální počítače Azure, zatímco Azure Backup pomáhá chránit pouze místní cíle. Pomocí Azure Site Recovery byste mohli aktivovat převzetí služeb při selhání z místních virtuálních počítačů do prostředí Azure.

Azure Site Recovery může pomoct udržet úlohy spuštěné, zatímco Azure Backup může pomoct udržet data v bezpečí.

Azure Site Recovery slouží k uchovávání dlouhodobých dat, zatímco Azure Backup slouží k uchovávání krátkodobých dat. Azure Backup můžete použít k aktivaci testovacího převzetí služeb při selhání z místní infrastruktury do infrastruktury Azure.

Které funkce Azure přispívají k vysoké dostupnosti virtuálních počítačů?

Skupiny dostupnosti, zóny obnovení

Zóny dostupnosti, párování oblastí

Body dostupnosti, párování oblastí

Před kontrolou vaší práce musíte odpovědět na všechny dotazy.