Sdílet prostřednictvím


Ochrana a obnovení ve správě cloudu

Před přípravou na potenciální výpadek úloh by se týmy pro správu cloudu měly nejprve ujistit, že splňují požadavky na:

Jak plánují, týmy musí začínat předpokladem, že při havárii něco selže. Příprava na výpadek umožňuje týmům rychleji zjišťovat selhání a rychleji se zotavit. Tato disciplína se zaměřuje na kroky, které přicházejí okamžitě po selhání systému. Jak chráníte úlohy, aby bylo možné je rychle obnovit, když dojde k výpadku?

Žádné technické řešení nemůže konzistentně nabízet smlouvu SLA, která zaručuje 100% dobu provozu. Řešení s nejvíce redundantními architekturami tvrdí, že poskytují "šest 9" nebo 99,9999% dobu provozu. Dokonce i "šest 9s" řešení klesne po dobu 31,6 sekund v jakémkoli daném roce. Řešení je vzácné, aby bylo možné zajistit velkou průběžnou provozní investici, která je nutná k dosažení "šesti 9s" doby provozu.

Překlad konverzací ochrany a obnovení

Úlohy, které provozují obchodní operace, se skládají z:

  • Aplikace
  • Data
  • Virtuální počítače
  • Další prostředky

Každý prostředek může vyžadovat vlastní přístup k ochraně a obnovení. Důležitým cílem této disciplíny je vytvořit konzistentní závazek v rámci směrného plánu správy, který může poskytnout výchozí bod pro obchodní diskuze.

Minimálně by týmy pro správu cloudu měly pro každý prostředek vytvořit základní přístup s jasným závazkem k rychlému obnovení a minimální ztrátě dat.

Plánovaná doba obnovení (RTO)

Cílem doby obnovení je doba, po kterou by mělo trvat obnovení jakéhokoli systému do jeho stavu před havárií. To by zahrnovalo čas potřebný k:

  • Obnovení minimálních funkcí do virtuálních počítačů a aplikací
  • Obnovte data požadovaná aplikacemi.

RtO v obchodních podmínkách představuje dobu, po kterou jsou obchodní procesy mimo provoz. U důležitých úloh by tato proměnná měla být relativně nízká, což umožňuje rychle pokračovat v obchodních procesech. U úloh s nižší prioritou nemusí mít standardní úroveň RTO výrazný dopad na výkon společnosti.

Firma by měla vytvořit směrný plán správy, který vytvoří standardní RTO pro úlohy, které nejsou klíčové. Firma pak může tento směrný plán použít jako způsob, jak odůvodnit další investice do doby obnovení.

Cíle bodu obnovení (RPO)

Ve většině systémů pro správu cloudu některá forma ochrany dat pravidelně zaznamenává a ukládá data. Bod obnovení odkazuje na čas posledního zachycení dat. Pokud dojde k selhání systému, můžete ho obnovit pouze do nejnovějšího bodu obnovení.

Cíl bodu obnovení se měří od nejnovějšího bodu obnovení k výpadku. Pokud se cíl bodu obnovení měří v hodinách, dojde k selhání systému ke ztrátě dat po dobu hodin mezi posledním bodem obnovení a výpadkem. Pokud se cíl bodu obnovení měří ve dnech, dojde k selhání systému ke ztrátě dat pro dny mezi posledním bodem obnovení a výpadkem. Jednorázový cíl bodu obnovení by teoreticky vedl ke ztrátě všech transakcí v den vedoucí k selhání.

V případě kritických systémů může měření cíle bodu obnovení v minutách nebo sekundách pomoct vyhnout se ztrátě výnosů nebo zisku. Kratší cíl bodu obnovení ale obvykle vede ke zvýšení nákladů na správu. Aby se tyto náklady minimalizovaly, firma by měla vytvořit směrný plán správy, který se zaměřuje na nejdelší přijatelný cíl bodu obnovení. Firma pak může snížit cíl bodu obnovení konkrétních platforem nebo úloh, které zaručují větší investice.

Ochrana a obnovení úloh

Většina úloh v IT podpora prostředí konkrétním obchodním nebo technickém procesu. Systémy, které nemají systémový dopad na obchodní operace, obvykle nezaručují zvýšenou investici potřebnou k rychlému obnovení systémů nebo minimalizaci ztráty dat. Vytvořením směrného plánu může firma zjistit, jakou úroveň podpory obnovení potřebuje za cenu, kterou může konzistentně spravovat. Porozumění tomu pomáhá obchodním zúčastněným stranám vyhodnotit hodnotu zvýšené investice do zotavení.

U většiny týmů pro správu cloudu přináší vylepšený směrný plán s konkrétními závazky RPO/RTO pro různé prostředky nejvhodnější cestu k vzájemným obchodním závazkům. Následující části popisují několik běžných vylepšených směrných plánů, které firmě umožňují snadno přidat funkci ochrany a obnovení prostřednictvím opakovatelného procesu.

Ochrana a obnovení dat

Data jsou pravděpodobně nejcennějším aktivem v digitální ekonomice. Ztráta dat, která řídí produkční úlohy, vede ke ztrátě výnosů nebo zisku. Nejběžnějším vylepšeným základním plánem je schopnost efektivně chránit a obnovovat data. Doporučujeme týmům pro správu cloudu nabídnout úroveň vylepšených směrných plánů správy, které podporují běžné datové platformy.

Než týmy pro správu cloudu implementují operace platformy, je běžné, že podporují vylepšené operace pro datovou platformu PaaS (Platforma jako služba). Například pro tým pro správu cloudu je snadné vynutit vyšší frekvenci zálohování nebo replikace mezi oblastmi pro řešení Azure SQL Database nebo Azure Cosmos DB. Díky tomu může vývojový tým snadno vylepšit cíl bodu obnovení modernizací datových platforem.

Další informace o tomto myšlenkových procesu najdete v tématu Disciplína operací platformy.

Ochrana a obnovení virtuálních počítačů

Většina úloh poněkud závisí na virtuálních počítačích, které hostují různé aspekty řešení. Firma musí rychle obnovit některé virtuální počítače, aby úloha podporovala své procesy po selhání systému.

Každou minutu výpadku těchto virtuálních počítačů může dojít ke ztrátě výnosů nebo snížení zisku. Pokud výpadek virtuálního počítače má přímý dopad na fiskální výkon firmy, je RTO velmi důležité. Týmy pro správu cloudu můžou rychle obnovit virtuální počítače tím, že je replikují do sekundární lokality a pomocí automatizovaného obnovení, modelu, který se označuje jako model horkého obnovení. Týmy také můžou replikovat virtuální počítače do funkční, sekundární lokality v přístupu označovaného jako horký nebo vysoce dostupný model. Horký přístup je dražší, ale nabízí nejvyšší stav obnovení.

Každý z těchto modelů snižuje rto, což firmám pomáhá rychleji obnovit své obchodní schopnosti. Každý model ale také výrazně zvyšuje náklady na správu cloudu.

Mějte také na paměti, že kromě replikace pro vysokou dostupnost by mělo být zálohování povolené pro scénáře, jako jsou:

  • Náhodné odstranění
  • Poškození dat
  • Útoky ransomwaru

Další informace o tomto myšlenkového procesu najdete v tématu Disciplína operací úloh.

Další kroky

Po splnění této komponenty směrného plánu správy se tým může podívat dopředu, aby se vyhnul výpadkům v provozu platformy a provozu úloh.