Rekommendationer för att utforma en strategi för katastrofåterställning

Artikel
05/16/2024

Gäller för den här Power Platform rekommendationen för checklistan Well-Architected Reliability :

TILL 07	Implementera strukturerade, testade och dokumenterade planer för affärskontinuitet och haveriberedskap (BCDR, business continuity and disaster recovery) som överensstämmer med återställningsmålen. Planer måste omfatta alla komponenter och systemet som helhet.

Den här guiden innehåller rekommendationer om hur du utformar en tillförlitlig katastrofåterställningsstrategi för en arbetsbelastning. För att kunna uppfylla de interna servicenivåmålen (SLO:er) eller till och med ett serviceavtal (SLA) som du har garanterat för dina kunder måste du ha en robust och tillförlitlig katastrofåterställningsstrategi. Fel och andra större problem förväntas. Dina förberedelser för att hantera dessa händelser avgör hur mycket kunderna kan ge företaget förtroende för att leverera för dem. En katastrofåterställningsstrategi används som förberedelse för allvarliga händelser.

Definitioner

Begrepp	Definition
Redundans	Den automatiserade och/eller manuella överföringen av produktionsarbetsbelastningstrafik från en region som inte är tillgänglig till en region som inte påverkas.
Återställning efter fel	Den automatiserade och/eller manuella överföringen av produktionsarbetsbelastningstrafik från en redundant region tillbaka till den primära regionen.

Viktiga designstrategier

I den här guiden förutsätts det att du redan har utfört följande uppgifter när du planerar tillförlitligheten:

Identifiera kritiska och icke-kritiska flöden.
Utföra fellägesanalyser (FMA) för dina flöden.
Identifiera tillförlitlighetsmål.
Designa en teststrategi.

En tillförlitlig arbetsbelastningsarkitektur ligger till grund för en tillförlitlig DR-strategi (Disaster Recovery). Fundera på tillförlitligheten i alla stadier när du skapar arbetsbelastningen och se till att du har de komponenter som behövs för effektiv återställning innan du börjar planera din DR-strategi. Den här grunden säkerställer att arbetsbelastningens tillförlitlighetsmål, t.ex. målet för återställningstid (RTO) och målet för återställningspunkten (RPO), är praktiska och kan uppnås.

Upprätthåll en katastrofåterställningsplan

Nyckeln till en tillförlitlig DR-strategi för arbetsbelastningen är DR-planen. Din plan bör vara ett levande dokument som regelbundet revideras och uppdateras när miljön förändras. Dela planen med relevanta team (verksamhet, teknikledning och affärsintressenter) regelbundet (till exempel var sjätte månad). Bevara den mycket tillgängligt i ett säkert datalager till exempel OneDrive.

Följ dessa rekommendationer när du utvecklar din DR-plan:

Ange tydligt vad som utgör en katastrof och kräver aktivering av DR-planen.

Katastrofer är storskaliga problem. Det kan vara regionala avbrott, avbrott i tjänster som Microsoft Entra ID eller Azure DNS, eller allvarliga skadliga angrepp som till exempel utpressningstrojaner eller DDoS-angrepp.

Ta med exempel på fellägen som inte betraktas som katastrofer, t.ex. bristande tillgänglighet eller fel för en enskild resurs, i din DR-plan så att operatörerna inte av misstag startar sin DR-eskalering.
Bygg DR-planen på din FMA-dokumentationen. Se till att DR-planen innehåller fellägen och riskreduceringsstrategier för avbrott som har definierats som katastrofer. Om det krävs uppdateringar måste du uppdatera både din DR-plan och dina FMA-dokument samtidigt så att de är korrekta när miljön ändras eller när tester ger visa på oväntade beteenden.
Definiera roller och ansvarsområden tydligt inom arbetsbelastningsteamet och förstå alla relaterade externa roller inom organisationen. Om katastrofen orsakas av ett avbrott i en extern tjänst, t.ex. Microsoft Entra ID, ska du se till att du har en roll som är definierad som ansvarig för kommunikationen med den externa part och kan dela uppdateringar med arbetsbelastningsteamet. Roller bör vara:
- Den part som är ansvarig för att deklarera en katastrof
- Den part som är ansvarig för att deklarera incidentstängning
- Åtgärdsroller
- Rolle för testning och validering
- Interna och externa kommunikationsroller
- Ledningsroller för retrospektiva och grundorsaksanalyser (RCA)
Definiera de eskaleringsvägar som arbetsbelastningsteamet måste följa för att säkerställa att återställningsstatus meddelas intressenterna.
Ange i vilken ordning komponenter i arbetsbelastningen ska återställas för att orsaka den minsta påverkan. Återställ till exempel databaser och starta om molnflöden innan du återställer programmet.
- Ange detaljerad information om varje komponents återställningsprocedur som en steg-för-steg-guide. Ta med skärmbilder om det är möjligt och förutsättningar för att köra proceduren. Ange till exempel de nödvändiga skript eller autentiseringsuppgifter som behöver samlas in.
- Definiera ditt teams ansvarsområden jämfört med din molnvärdsleverantörs ansvarsområden. Ansvarar till exempel Microsoft för att återställa en PaaS (plattform som en tjänst), men du ansvarar för att extrahera data och tillämpa konfigurationen på tjänsten.
- Registrera rotorsaken till incidenten och åtgärda problemet innan du börjar återställa. Om orsaken till incidenten exempelvis är ett säkerhetsproblem åtgärdar du problemet innan du återställer de påverkade systemen i din redundanta miljö.
Om du behöver omdistribuera appen i den redundanta miljön använder du verktyg för att automatisera distributionsprocessen så mycket som möjligt. Se till att dina Azure Pipelines är fördistribuerade och korrekt konfigurerade i redundansmiljöerna så att du genast kan starta dina distributioner. Använd automatiserade kompletta distributioner med manuella godkännandegrindar där det behövs för att säkerställa en enhetlig och effektiv distributionsprocess. Dokumentera de manuella stegen när ett stadium av distributionsprocessen kräver manuella åtgärder. Definiera roller och ansvarsområden tydligt.
Automatisera så mycket som möjligt av proceduren. Använd logik för återförsök för att undvika att slösa tid på skript som har fastnat på en trasig uppgift. Eftersom du bara kör de här skripten i akuta situationer vill du inte att felaktigt utvecklade skript ska orsaka mer problem eller göra återställningsprocessen långsammare.

Kommentar

Automatisering utgör risker. Utbildade operatörer måste övervaka de automatiserade processerna noggrant och ingripa om det uppstår problem med någon process. För att minimera risken för att automatisering ska reagera på falskt positiva resultat bör du vara noggrann med dina DR-tester. Testa alla faser i planen. Simulera identifiering för att generera avisering och gå sedan igenom hela återställningsproceduren.

Genomför programåterställningstest

En DR-testpraxis är mycket viktig för en bra DR-plan. Många branscher har ramverk för regelefterlevnad där det krävs regelbundna DR-tester. Oavsett vilken bransch du befinner dig i är frekventa DR-tester avgörande för att du ska lyckas.

Följ dessa rekommendationer för lyckade DR-tester:

Utför minst en produktions-DR-test per år. Testövningar eller icke-produktionstester kan se till att berörda parter känner till sina roller och ansvarsområden. Med de här testerna får även operatörerna lära sig att följa återställningsprocesser. Men endast produktionstestövningar testar verkligen giltigheten i DR-planen och RTO- och RPO-måtten. Använd dina produktionstestövningar för att tidstesta återställningsprocesser för komponenter och flöden för att se till att de RTO- och RPO-mål som har definierats för arbetsbelastningen är möjliga att uppnå. För funktioner som du inte har kontroll över, som Microsoft Entra ID-avbrott, säkerställer du att RTO- och RPO-målen för de flöden som omfattar dessa funktioner kan ta hänsyn till eventuella förseningar utanför din kontroll.
Använd testövningar för att utbilda nya operatörer om DR-processer och DR-procedurer. Seniora operatörer bör ta sig tid att låta nya operatörer utföra sin roll och se till att det finns förbättringsmöjligheter. Om en ny operatör är osäker eller förvirrad av ett steg i proceduren granskar du proceduren och ser till att den är tydligt skriven.

Att tänka på

Att utföra DR-testövningar i produktion leda till oväntade katastrofiska fel. Var noga med att testa återställningsprocedurerna i icke-produktionsmiljöer under de första distributionerna.

Ge teamet så mycket underhållstid som möjligt under testövningar. När du planerar för underhållstid kan du använda de återställningsmått du samlar in under testningen som nödvändig minimitid.

I och med att DR-testrutinerna mognar får du veta vilka procedurer du kan köra parallella och vilka som du måste köra i sekvens. Tidigt i din testövningsprocess måste du anta att alla procedurer ska köras i sekvens och att du behöver mer tid i varje steg för att hantera oväntade problem.

Redundansfunktioner

Microsoft Affärsprogram tillhandahåller funktioner för affärskontinuitet och haveriberedskap (BCDR) till alla produktionsmiljöer i Dynamics 365 och Power Platform SAAS-program (programvara som en tjänst). Lär dig hur du ser till att Microsoft dina produktionsdata är motståndskraftiga under regionala avbrott.

Checklista för tillförlitlighet

Se den fullständiga uppsättningen med rekommendationer.

Checklista för tillförlitlighet

Dela via

Rekommendationer för att utforma en strategi för katastrofåterställning

Viktiga designstrategier

Upprätthåll en katastrofåterställningsplan

Genomför programåterställningstest

Att tänka på

Redundansfunktioner

Checklista för tillförlitlighet

Feedback

Ytterligare resurser