Anbefalinger for utforming av en strategi for nødgjenoppretting

Artikkel
05/16/2024

Gjelder denne Power Platform anbefalingen for sjekkliste for godt strukturert pålitelighet:

Om:07	Implementer strukturerte, testet og dokumenterte planer for forretningskontinuitet og nødgjenoppretting som er samkjørt med gjenopprettingsmålene. Planer må dekke alle komponenter og systemet som helhet.

Denne veiledningen beskriver anbefalinger for utforming av en pålitelig strategi for nødgjenoppretting for en arbeidsbelastning. For å oppfylle interne servicemål eller til og med en serviceavtale som du har garantert for kundene, må du ha en robust og pålitelig strategi for nødgjenoppretting. Det forventes feil og andre store problemer. Dine forberedelser for å håndtere disse hendelsene avgjør hvor mye kundene kan stole på virksomheten til å levere dem pålitelig. En strategi for nødgjenoppretting er grunndelen av forberedelsene til større hendelser.

Definisjoner

Term	Definisjon
Failover	Den automatiserte eller manuelle forskyvningen av produksjonsarbeidsbelastningstrafikken fra et område som ikke er tilgjengelig, til et uberørt område.
Failback	Den automatiserte eller manuelle forskyvningen av produksjonsarbeidsbelastningstrafikken fra et failover-område til primærområdet.

Viktige utformingsstrategier

Denne veiledningen forutsetter at du allerede har utført følgende oppgaver som en del av pålitelighetsplanleggingen:

Identifiser kritiske og ikke-kritiske flyter.
Utfør feilmodusanalyse for flytene.
Identifiser pålitelighetsmål.
Utform en robust teststrategi.

En pålitelig arbeidsbelastningsarkitektur er grunnlaget for en pålitelig nødgjenoppretting. Vurder pålitelighet i alle faser av opprettingen av arbeidsbelastningen for å forsikre deg om at du har de nødvendige komponentene for effektiv gjenoppretting før du begynner å planlegge strategien for nødgjenoppretting. Dette fundamentet sikrer at pålitelighetsmålene for arbeidsbelastningen din, for eksempel mål for gjenopprettingstid og mål for gjenopprettingspunkt, er praktiske og oppnåelige.

Vedlikehold en plan for nødgjenoppretting

Nøkkelen til en pålitelig strategi for nødgjenoppretting for en arbeidsbelastning er planen for nødgjenoppretting. Planen din skal være et levende dokument som revideres og oppdateres regelmessig etter hvert som miljøet endres. Del planen regelmessig med de relevante teamene (operasjoner, teknologiledelse og interessenter) regelmessig (f.eks. hver sjette måned). Hold den i et svært tilgjengelig, sikkert datalager like OneDrive.

Følg disse anbefalingene for å utvikle planen for nødgjenoppretting:

Definer klart hva som utgjør en katastrofe og krever aktivering av planen for nødgjenoppretting.

Katastrofer er store problemer. De kan være regionale avbrudd, avbrudd for tjenester som Microsoft Entra ID eller Azure DNS, eller alvorlige skadelige angrep som ransomware-angrep eller DDoS-angrep.

Inkluder eksempler på feilmoduser som ikke blir betraktet som katastrofer, for eksempel utilgjengelighet eller feil for en enkelt ressurs, i planen for nødgjenoppretting, slik at operatorer ikke aktiverer eskaleringer for nødgjenoppretting ved en feiltakelse.
Bygg planen for nødgjenoppretting på FMA-dokumentasjonen. Sørg for at planen for nødgjenoppretting registerer feilmoduser og overføringsstrategier for avbrudd som er definert som katastrofer. Hvis det kreves oppdateringer, må du oppdatere både planen for nødgjenoppretting og FMA-dokumentene samtidig slik at de er nøyaktige når miljøet endres eller under testing avslører uventet virkemåte.
Definer roller og ansvarsområder klart i arbeidsbelastningsteamet, og forstå eventuelle relaterte eksterne roller innenfor organisasjonen. Hvis katastrofen skyldes avbrudd for en ekstern tjeneste, for eksempel Microsoft Entra ID, må du kontrollere at du har en rolle definert som er ansvarlig for kommunikasjon med den eksterne parten, og at du kan dele oppdateringer med arbeidsbelastningsteamet. Roller må inkludere følgende:
- Parten som er ansvarlig for å erklære en katastrofe
- Parten som er ansvarlig for å erklære hendelseslukking
- Operasjonsroller
- Testing og validering av roller
- Interne og eksterne kommunikasjonsroller
- Retrospektive roller for potensielle kunder for årsaksanalyse
Definer eskaleringsbanene som arbeidsbelastningsteamet må følge for å sikre at gjenopprettingsstatusen kommuniseres til interessenter.
Inkluder i hvilken rekkefølge komponentene i arbeidsbelastningen skal gjenopprettes slik at det blir minst mulig innvirkning. Du kan for eksempel gjenopprette databaser og starte skyflyter på nytt før du gjenoppretter programmet.
- Gi detaljert informasjon om gjenopprettingsprosedyrene for hver enkelt komponent som en trinnvis veiledning. Inkluder skjermbilder hvis mulig, og forhåndskrav for å kjøre prosedyren. Vis for eksempel de nødvendige skriptene eller legitimasjonene som må samles inn.
- Definer teamets ansvar i forhold til ansvaret til skyverten. Er for eksempel Microsoft ansvarlig for å gjenopprette en PaaS (plattform som en tjeneste), men du er ansvarlig for å rehydrere data og bruke konfigurasjonen på tjenesten.
- Registrer rotårsaken til hendelsen, og utfør reduksjon før du starter gjenopprettingen. Hvis årsaken til hendelsen for eksempel er et sikkerhetsproblem, kan du redusere dette problemet før du gjenoppretter de berørte systemene i failover-miljøet.
Hvis du må rulle ut appen på nytt i failover-miljøet, bruker du verktøy til å automatisere utrullingsprosessen så mye som mulig. Kontroller at Azure Pipelines er forhåndsutrullet og riktig konfigurert i failover-miljøene, slik at du umiddelbart kan starte utrullingene. Bruk automatiske ende-til-ende-utrullinger med manuelle godkjenningsporter når det er nødvendig, for å sikre en ensartet og effektiv utrullingsprosess. Når en fase i utrullingsprosessen krever manuell inngripen, dokumenterer du de manuelle trinnene. Klart definerte roller og ansvarsområder.
Automatiser så mye av prosedyren du kan. Bruk logikk for nytt forsøk for å unngå å kaste bort tid på skripter som sitter fast på en brutt oppgave. Siden du bare kjører disse skriptene i nødssituasjoner, trenger du ikke feil utviklede skript for å forårsake mer skade eller redusere hastigheten på gjenopprettingsprosessen.

Merk

Automatisering utgjør en risiko. Opplærte operatører må overvåke de automatiske prosessene nøye og gripe inn hvis det oppstår problemer med prosessen. Hvis du vil redusere risikoen for at automatiseringen vil reagere på falske positiver, må du være grundig i drillene for nødgjenoppretting. Test alle fasene i planen. Simuler registreringen for å generere varsel, og gå deretter gjennom hele gjenopprettingsprosedyren.

Utfør driller for nødgjenoppretting

En testpraksis for nødgjenoppretting er viktig for en god plan for nødgjenoppretting. Mange bransjer har rammeverk for samsvar som krever regelmessige driller for nødgjenoppretting. Uavhengig av bransjen er hyppige driller for nødgjenoppretting avgjørende for at du skal lykkes.

Følg disse anbefalingene for vellykkede driller for nødgjenoppretting:

Utfør minst én drill for nødgjenoppretting for produksjon per år. Prøvekjør driller eller ikke-produksjonsdriller bidrar til å sikre at de involverte partene er kjent med rollene og ansvaret de har. Disse drillene hjelper også operatører med å gjøre seg kjent med dem ved å følge gjenopprettingsprosesser. Bare produksjonsdriller tester gyldigheten av planen for nødgjenoppretting og RTO- og RPO-måleverdier. Bruk produksjonsdrillene til å gjenvinne prosesser for komponenter og flyter for å sikre at RTO- og RPO-målene som er definert for arbeidsbelastningen din, er oppnåelige. For funksjoner som du ikke har kontroll over, for eksempel Microsoft Entra ID-avbrudd, må du sørge for at RTO- og RPO-målene for flytene som involverer disse funksjonene, står for mulige forsinkelser som ligger utenfor din kontroll.
Bruk prøvekjøringsdriller til å informere nye operatører om prosesser og prosedyrer for nødgjenoppretting. Senioroperatører bør ta seg tid til å la nye operatører utføre rollen sin, og de bør se etter forbedringsmuligheter. Hvis en ny operator tviler eller er forvirret av et trinn i en prosedyre, ser du gjennom denne prosedyren for å forsikre deg om at den er tydelig skrevet.

Vurderinger

Utføring av driller for nødgjenoppretting i produksjon kan føre til uventede katastrofale feil. Sørg for at du tester gjenopprettingsprosedyrer i ikke-produksjonsmiljøer under de første utrullingene.

Gi teamet så mye vedlikeholdstid som mulig under drillene. Når du planlegger vedlikeholdstid, bruker du restitusjonsmåleverdiene du registrerer under testing, som nødvendige enheter for minimumstiden.

Etter hvert som drillprosedyrene for nødgjenoppretting modnes, lærer du hvilke prosedyrer du kan kjøre parallelt, og hvilke du må kjøre i rekkefølge. Tidlig i drillprosedyrene forutsetter du at hver prosedyre må kjøres i rekkefølge, og at du trenger ekstra tid i hvert trinn for å håndtere uventede problemer.

Failover-funksjoner

Microsoft Forretningsprogrammer gir funksjoner for forretningskontinuitet og nødgjenoppretting (BCDR) til alle produksjonsmiljøer i Dynamics 365 og Power Platform programvare som en tjeneste (SAAS)-programmer. Finn ut hvordan Microsoft du sikrer at produksjonsdataene dine er robuste under regionale avbrudd.

Sjekkliste for pålitelighet

Se hele settet med anbefalinger.

Sjekkliste for pålitelighet

Del via

Anbefalinger for utforming av en strategi for nødgjenoppretting

Viktige utformingsstrategier

Vedlikehold en plan for nødgjenoppretting

Utfør driller for nødgjenoppretting

Vurderinger

Failover-funksjoner

Sjekkliste for pålitelighet

Tilbakemeldinger

Flere ressurser