Anbefalinger til design af en strategi for it-katastrofeberedskab

Artikel
05/16/2024

Gælder for denne Power Platform anbefaling af tjekliste for velstruktureret pålidelighed:

RE:07	Implementer strukturerede, testede og dokumenterede planer for forretningskontinuitet og it-katastrofeberedskab (BCDR), der er tilpasset målene for gendannelse. Planer skal dække alle komponenter og systemet som en helhed.

I denne vejledning beskrives anbefalinger til udarbejdelse af en pålidelig strategi for it-katastrofeberedskab til en arbejdsbelastning. Hvis du vil opfylde interne serviceniveaumål (SLO'er) eller endda en serviceaftale (SLA), som du har garanteret for dine kunder, skal du have en robust og pålidelig strategi for it-katastrofeberedskab. Der forventes fejl og andre større problemer. Dine forberedelser til at håndtere disse hændelser afgør, hvor meget kunderne kan have tillid til, at din virksomhed kan levere pålideligt til dem. En strategi for it-katastrofeberedskab er rygraden i forberedelsen af større hændelser.

Definitioner

Begreb	Definition
Failover	Den automatiserede og/eller manuelle flytning af arbejdsbelastningstrafik fra et ikke-tilgængeligt område til et uberørt område.
Failback	Den automatiserede og/eller manuelle flytning af arbejdsbelastningstrafik fra et failover-område tilbage til det primære område.

Vigtigste designstrategier

I denne vejledning antages det, at du allerede har udført følgende opgaver som en del af planlægningen af pålideligheden:

Identificer kritiske og ikke-kritiske flows.
Udfør analyse af fejltilstand (FMA) for dine flows.
Identificer stabilitetsmål.
Design en robust teststrategi.

En pålidelig arkitektur for arbejdsbelastning er grundlaget for en pålidelig strategi for it-katastrofeberedskab. Vær opmærksom på pålidelighed i alle faser under oprettelse af arbejdsbelastningen for at sikre, at du har de nødvendige komponenter til effektiv gendannelse, før du begynder at planlægge strategien for it-katastrofeberedskab. Dette fundament sikrer, at arbejdsbelastningens pålidelighedsmål, f.eks. mål for gendannelsestid (RTO - Recovery Time Objective) og mål for gendannelsespunkt (RPO - Recovery Point Objective), er praktiske og opnåelige.

Vedligeholde en plan for it-katastrofeberedskab

Nøglen til en pålidelig strategi for it-katastrofeberedskab til en arbejdsbelastning er it-katastrofeberedskabsplanen. Din plan skal være et levende dokument, der jævnligt revideres og opdateres i forbindelse med ændringerne i miljøet. Del planen med de relevante teams (drift, teknologisk ledelse og interessenter) jævnligt (f.eks. hver sjette måned). Opbevar den på et yderst tilgængeligt, sikkert datalager som OneDrive.

Følg disse anbefalinger for at udarbejde din it-katastrofeberedskabsplan:

Definer tydeligt, hvad der udgør en katastrofe og kræver aktivering af planen.

Katastrofesituationer er omfattende problemer. Det kan være regionale driftsstop, udfald af tjenester som Microsoft Entra ID eller Azure DNS eller alvorlige ondsindede angreb, f.eks. angreb med ransomware eller DDoS.

Inkluder eksempler på fejltilstande, der ikke opfattes som katastrofer, f.eks. utilgængelighed eller fejl i en enkelt ressource, i din it-katastrofeberedskabsplan, så operatørerne ikke kalder deres eskaleringer af it-katastrofeberedskab.
Opbyg it-katastrofeberedskabsplanen på dokumentationen til FMA. Sørg for, at din plan registrerer fejltilstande og afhjælpningsstrategier for driftsstop, der defineres som katastrofer. Hvis der kræves opdateringer, skal du opdatere både din it-katastrofeberedskabsplan og FMA-dokumenterne samtidig, så de er nøjagtige, når miljøet ændres, eller når testen viser uventede funktionsmåder.
Definer klart roller og ansvarsområder i arbejdsbelastningsteamet, og forstå eventuelle relaterede eksterne roller i din organisation. Hvis katastrofen skyldes afbrydelse af en ekstern tjeneste, f.eks. Microsoft Entra ID, skal du sikre, at du har defineret en rolle, der er ansvarlig for kommunikation med den eksterne part, og som kan dele opdateringer med arbejdsbelastningens team. Rollerne skal omfatte:
- Den part, der er ansvarlig for at erklære en katastrofe
- Den part, der er ansvarlig for at erklære hændelseslukning
- Driftsroller
- Test- og valideringsroller
- Interne og eksterne kommunikationsroller
- Førende retrospektive og rodårsagsanalyseroller (RCA)
Definer de eskaleringsforløb, som arbejdsbelastningsteamet skal følge for at sikre, at interessenterne får status om gendannelse.
Inkluder den definerede rækkefølge, som komponenter i arbejdsbelastningen skal gendannes i, så de har mindst indflydelse. Du kan f.eks. gendanne databaser og genstarte cloudflows, før du gendanner programmet.
- Giv oplysninger om hver enkelt komponents gendannelsesprocedure som en trinvis vejledning. Medtag skærmbilleder, hvis det er muligt, og forudsætninger for at køre proceduren. Du kan f.eks. angive de påkrævede scripts eller legitimationsoplysninger, der skal indsamles.
- Definer teamets ansvarsområder i forhold til din cloudværtsudbyders ansvarsområder. Er f.eks. Microsoft ansvarlig for at gendanne en PaaS (platform as a service), men du er ansvarlig for at rehydrere data og anvende din konfiguration på tjenesten.
- Registrer rodårsagen til hændelsen, og foretag afhjælpning, før du starter gendannelsen. Hvis f.eks. årsagen til hændelsen er et sikkerhedsproblem, skal du afhjælpe dette problem, før du gendanner de berørte systemer i failover-miljøet.
Hvis du skal geninstallere din app i failover-miljøet, kan du bruge værktøjer til at automatisere udrulningsprocessen så meget som muligt. Sørg for, at dine Azure-pipelines er udrullet på forhånd og konfigureret korrekt i failover-miljøerne, så du straks kan starte dine udrulninger. Brug automatiserede udrulninger fra ende til anden med manuel godkendelse, hvor det er nødvendigt, for at sikre en gennemført og effektiv udrulningsproces. Når en fase i udrulningsprocessen kræver en manuel handling, skal du dokumentere de manuelle trin. Definer tydeligt roller og ansvarsområder.
Automatiser så meget af proceduren som muligt. Brug gentagen forsøgslogik for at undgå at spilde tid på scripts, der sidder fast på en afbrudt opgave. Da du kun kører disse scripts i nødsituationer, vil du ikke have forkert udviklede scripts, der kan forårsage mere skade eller gøre gendannelsesprocessen langsommere.

Bemærk

Automatisering udgør en risiko. Erfarne operatører skal overvåge de automatiserede processer omhyggeligt og gribe ind, hvis der opstår problemer i en proces. For at minimere risikoen for, at automatiseringen reagerer på falske positiver, skal du være grundig i dine øvelser til it-katastrofeberedskab. Test alle faser i planen. Simuler registrering for at oprette vigtige beskeder, og gennemgå derefter hele gendannelsesproceduren.

Foretage test af it-katastrofeberedskab

En praksis for test af it-katastrofeberedskab er vigtig for en god plan. Mange brancher har regler for overholdelse af angivne standarder, der kræver regelmæssige it-katastrofeberedskabsøvelser. Uanset din branche er hyppige katastrofeberedskabsøvelser kritiske for din succes.

Følg disse anbefalinger for at opnå vellykkede it-katastrofeberedskabsøvelser:

Udfør mindst én it-katastrofeberedskabsøvelse pr. år. Dry run-øvelser eller ikke-produktionsøvelser er med til at sikre, at de implicerede parter er fortrolig med deres roller og ansvarsområder. Disse øvelser hjælper også operatører med at skabe kendskab ved at følge gendannelsesprocesser. Men det er kun produktionsøvelser, der virkelig tester it-katastrofeberedskabsplanen og RTO- og RPO-metrikværdierne. Brug dine produktionsøvelser til at time genoprettelsesprocesser for komponenter og flows for at sikre, at de RTO- og RPO-mål, der er defineret for din arbejdsbelastning, kan nås. For funktioner, der er uden for din kontrol, f.eks. Microsoft Entra ID-afbrydelser, skal du sikre, at RTO- og RPO-målene for de flows, der omfatter disse funktioner, tager højde for eventuelle forsinkelser, du ikke har kontrol over.
Brug dry run-øvelser til at oplære nye operatører i processer og procedurer for it-katastrofeberedskab. Erfarne operatører bør lade nye operatører udføre deres rolle, og de bør holde øje med muligheder for forbedringer. Hvis en ny operator tøver eller bliver forvirret af et trin i en procedure, skal du gennemgå denne procedure for at sikre, at den er klart formuleret.

Overvejelser

Hvis du udfører it-katastrofeberedskabsøvelser i produktionen, kan det medføre uventede katastrofale fejl. Sørg for at teste procedurer for gendannelse i ikke-produktionsmiljøer under de første udrulninger.

Giv teamet så meget vedligeholdelsestid som muligt under øvelserne. Når du planlægger vedligeholdelsestid, skal du bruge de gendannelsesmetrikværdier, du registrerer under testen, som afsættelser af nødvendig minimumtid.

Efterhånden som dine it-katastrofeberedskabsøvelser modnes, kan du se, hvilke procedurer du kan køre parallelt, og hvilke procedurer du skal køre i sekvens. Tidligt i dine praktiske øvelser skal du gå ud fra, at alle procedurer skal køres i sekvens, og at du har brug for ekstra tid i hvert trin til at håndtere uventede problemer.

Failover-funktioner

Microsoft Business Applications leverer funktioner til forretningskontinuitet og it-katastrofeberedskab (BCDR) til alle produktionsmiljøer i Dynamics 365 og Power Platform SAAS-programmer (Software as a Service). Få mere at vide om, hvordan Microsoft du sikrer, at dine produktionsdata er robuste under regionale afbrydelser.

Kontrolliste for bæredygtighed

Se det fuldstændige sæt anbefalinger.

Tjekliste for pålidelighed

Del via