Návrh pro obnovení
Úloha musí být schopná předvídat a zotavit se z většiny selhání, všech rozsahů, s minimálním přerušením uživatelského prostředí a obchodních cílů. |
---|
I vysoce odolné systémy potřebují přístupy k připravenosti na havárii, a to jak při návrhu architektury, tak v provozu úloh. V datové vrstvě byste měli mít strategie, které můžou opravit stav úloh, pokud dojde k poškození.
Ukázkový scénář
Společnost Contoso v současné době hostuje velké množství dat v místní databázi SQL Serveru a nedávno modernizovala své analytické řešení pro data pomocí služeb Azure.
Nové analytické řešení využívá Azure Analysis Services, Azure Data Factory, Azure Synapse Analytics, Power BI a Azure Virtual Machines. Všichni uživatelé řešení jsou interní. Po zvážení požadavků na dostupnost řešení se tým rozhodne implementovat řešení v jedné oblasti.
Data se ingestují pomocí služby Azure Data Factory a zpracovávají se před uložením do úložiště Analysis Services. Součástí tohoto procesu je starší verze procesu Windows, který je nasazený na virtuální počítač v cloudu.
Připravte se na havárie
Mají strukturované, otestované a zdokumentované plány obnovení, které jsou v souladu s vyjednanými cíli obnovení. Plány musí zahrnovat všechny komponenty kromě systému jako celku.
Dobře definovaný proces vede k rychlému obnovení, které může zabránit negativnímu dopadu na finance a pověst vaší firmy. Provádění pravidelných postupů obnovení testuje proces obnovení systémových komponent, dat a kroků navrácení služeb při selhání a navrácení služeb po obnovení, aby nedocházelo k nejasnostem v případě, že čas a integrita dat jsou klíčovými mírami úspěchu.
Výzva společnosti Contoso
- Řešení se používá jenom interně a nepovažuje se za klíčové. Proto tým úloh a obchodní účastníci souhlasí s tím, že opětovné sestavení řešení v sekundární oblasti je dostatečným modelem obnovení v nepravděpodobném případě, že dojde ke ztrátě oblasti Azure, ve které je nasazena, nebo se z nějakého jiného důvodu stane nedostupné celé řešení.
- Tým úloh popisuje, jak sestavit řešení v jiné oblasti v plánu zotavení po havárii, ale ještě neměl možnost provést úplnou nácvik zotavení po havárii.
Použití přístupu a výsledků
- Po regionálním výpadku může tým pro reakci na zotavení po havárii postupovat podle pokynů plánu zotavení po havárii a znovu nasadit analytické řešení v jiné oblasti.
- Tým zjistí mezery v plánech zotavení po havárii pro některé operace potřebné k nasazení řešení a plán se aktualizuje, aby v budoucnu bylo obnovení efektivnější.
- Tým úloh a zúčastněné strany souhlasí s urychlením plánovaného testování zotavení po havárii, aby se zajistilo, že aktualizovaný plán umožní efektivnější obnovení.
Adresní stavová data
Ujistěte se, že můžete opravit data všech stavových komponent v rámci cílů obnovení.
Zálohy jsou nezbytné k tomu, aby se systém vrátil do pracovního stavu pomocí důvěryhodného bodu obnovení, jako je poslední známý dobrý stav.
Neměnné a transakční konzistentní zálohy zajišťují, že data nejdou změnit a že obnovená data nejsou poškozená.
Výzva společnosti Contoso
- Tým úloh se rozhodne přesunout databáze SQL do Azure, aby zkrátil dobu zpracování analýz. Jedna z databází se během analytického procesu často využívá virtuálními počítači, takže tým musí zajistit, aby se stav databáze mohl obnovit s nejnižším možným cílem bodu obnovení.
Použití přístupu a výsledků
- Vzhledem k tomu, že databáze jsou velké na více než 4 TB, migrace do Služby Azure SQL Database není v krátkodobém horizontu dosažitelná. Tým se tedy migruje na virtuální počítače Azure s SQL Serverem 2022.
- Tým se rozhodne použít funkci automatizovaného zálohování pro všechny databáze, včetně důležitých databází, jako je ta, kterou používají virtuální počítače.
- V případě důležitých databází tým plánuje používat funkci automatizovaného zálohování spolu s funkcí propojení spravované instance k aktivní replikaci databází do spravované instance Azure SQL.
Implementace automatizovaných možností samoopravení v návrhu
Možnosti samoopravení jsou mechanismy, které umožňují komponentám úlohy automaticky řešit problémy obnovením ovlivněných komponent a v případě potřeby převzetím služeb při selhání do redundantní infrastruktury. Pomocí vzorů návrhu můžete k úlohám přidat odolnost prostřednictvím mechanismů samoopravení.
Automatizace samoopravení pomáhá snižovat rizika z externích faktorů, jako je lidský zásah, a zkracuje cyklus opravy přerušení.
Výzva společnosti Contoso
- Proces Windows vyvolaný ze služby Azure Data Factory při počátečním nasazení dat do více virtuálních počítačů kvůli vyšší dostupnosti.
- Došlo k několika případům, kdy došlo k chybovému ukončení starší verze procesu Windows, což vyžaduje restartování virtuálního počítače. Celková doba zpracování je sice minimálně ovlivněná (kvůli úrovni redundance), ale tým chce implementovat řešení, které automatizuje detekci selhání a obnovení.
Použití přístupu a výsledků
- Tým se rozhodne implementovat řešení Škálovací sady virtuálních počítačů Azure, které je nakonfigurované tak, aby nasadila rozšíření služby Application Health, aby nepřetržitě monitorovala stav procesu virtuálního počítače.
- Když je povolená automatická oprava instance, škálovací sada teď dokáže opravit komponentu restartováním virtuálního počítače nebo vytvořením nové instance na základě stejné image.