Aanbevelingen voor het ontwerpen van een strategie voor herstel na noodgevallen

Artikel
05/16/2024

Van toepassing op deze aanbeveling voor de Well-Architected Reliability-checklist: Power Platform

RE:07	Implementeer gestructureerde, geteste en gedocumenteerde plannen voor bedrijfscontinuïteit en noodherstel (BCDR) die aansluiten bij de hersteldoelstellingen. Plannen moeten alle onderdelen en het systeem als geheel omvatten.

In deze guide worden aanbevelingen beschreven voor het ontwerpen van een betrouwbare strategie voor herstel na noodgevallen voor een workload. Om te voldoen aan de interne serviceniveaudoelstellingen (SLO's) of zelfs aan een serviceniveauovereenkomst (SLA) die u aan uw klanten hebt gegarandeerd, moet u over een robuuste en betrouwbare strategie voor herstel na noodgevallen beschikken. Storingen en andere grote problemen kunnen voorkomen. Uw voorbereidingen om met deze incidenten om te gaan, bepalen in hoeverre uw klanten erop kunnen vertrouwen dat uw bedrijf op betrouwbare wijze uw services kan blijven leveren. Een strategie voor herstel na noodgevallen zijn de basis van de voorbereiding op grote incidenten.

Definities

Term	Definitie
Failover	Het geautomatiseerd en/of handmatig verplaatsen van verkeer van productieworkload van een niet-beschikbare regio naar een niet-getroffen regio.
Failback	Het geautomatiseerd en/of handmatig verplaatsen van verkeer van productieworkload vanuit een failover-regio terug naar de primaire regio.

Belangrijke ontwerpstrategieën

In deze guide wordt ervan uitgegaan dat u de volgende taken al hebt uitgevoerd als onderdeel van uw betrouwbaarheidsplanning:

Identificeer kritische en niet-kritische stromen.
Voer een analyse van de foutmodus (FMA) uit voor uw stromen.
Identificeer betrouwbaarheidsdoelen.
Ontwerp een robuuste teststrategie.

Een betrouwbare workloadarchitectuur is de basis voor een betrouwbare strategie voor herstel na noodgevallen. Houd in elke fase van het creëren van uw workload rekening met betrouwbaarheid om ervoor te zorgen dat u over de benodigde onderdelen beschikt voor efficiënt herstel voordat u begint met het plannen van uw strategie voor herstel na noodgevallen. Deze basis zorgt ervoor dat de betrouwbaarheidsdoelstellingen van uw workload, zoals de doelstelling voor hersteltijd en de doelstelling voor herstelpunt, praktisch en haalbaar zijn.

Een plan voor herstel na noodgevallen bijhouden

De sleutel tot een betrouwbare strategie voor herstel na noodgevallen voor een workload is het Plan voor herstel na noodgevallen. Uw plan moet een actief document zijn dat regelmatig wordt herzien en bijgewerkt als uw omgeving verandert. Deel het plan regelmatig (bijvoorbeeld elke zes maanden) met de relevante teams (operations, technologisch leiderschap en zakelijke belanghebbenden). Bewaar het in een zeer beschikbare, veilige gegevensopslag zoals OneDrive.

Volg deze aanbevelingen om uw plan voor herstel na noodgevallen te ontwikkelen:

Definieer duidelijk wat een ramp is en wat activering van het plan voor herstel na noodgevallen vereist.

Rampen zijn grootschalige problemen. Het kunnen regionale storingen zijn, storingen van diensten zoals Microsoft Entra ID of Azure DNS, of ernstige kwaadaardige aanvallen zoals ransomware-aanvallen of DDoS-aanvallen.

Neem in u plan voor herstel na noodgevallen voorbeelden op van storingen die niet als rampen worden beschouwd, zoals wanneer een enkele bron niet beschikbaar is of een storing heeft, zodat operators niet per ongeluk hun escaleren en hun herstelplan na noodgevallen aanroepen.
Bouw het plan voor herstel na noodgevallen op basis van uw FMA-documentatie. Zorg ervoor dat uw plan voor herstel na noodgeval de strategieën voor storingen en mitigatie vastlegt voor storingen die als rampen worden gedefinieerd. Als er updates nodig zijn, werk dan zowel uw plan voor herstel na noodgevallen als uw FMA-documenten tegelijkertijd bij, zodat ze accuraat zijn wanneer de omgeving verandert of wanneer testen onverwacht gedrag aan het licht brengen.
Definieer duidelijk de rollen en verantwoordelijkheden binnen het workloadteam en krijg inzicht in alle gerelateerde externe rollen binnen uw organisatie. Als de ramp wordt veroorzaakt door het uitvallen van een externe service, zoals Microsoft Entra ID, zorg er dan voor dat u een rol hebt gedefinieerd die verantwoordelijk is voor de communicatie met de externe partij en die updates kan delen met het workloadteam. Rollen moeten het volgende omvatten:
- De partij die verantwoordelijk is voor het uitroepen van een ramp
- De partij die verantwoordelijk is voor het afsluiten van het incident
- Rollen in Operations
- Test- en validatierollen
- Interne en externe communicatierollen
- Hoofdrollen in retrospectieve analyse en hoofdoorzaakanalyse (RCA)
Definieer de escalatiepaden die het workloadteam moet volgen om ervoor te zorgen dat de herstelstatus aan belanghebbenden wordt gecommuniceerd.
Vermeld de voorgeschreven volgorde waarin onderdelen van de workload moeten worden hersteld om de minste impact te veroorzaken. Herstel bijvoorbeeld databases en start cloudstromen opnieuw voordat u de applicatie herstelt.
- Geef een stapsgewijze guide voor de herstelprocedure van elk onderdeel. Voeg indien mogelijk schermopnamen toe en de vereisten voor het uitvoeren van de procedure. Vermeld bijvoorbeeld de vereiste scripts of referenties die moeten worden verzameld.
- Definieer de verantwoordelijkheden van uw team versus die van uw cloudhostingprovider. Microsoft is bijvoorbeeld verantwoordelijk voor het herstellen van een PaaS (platform as a service), maar u bent verantwoordelijk voor het opnieuw hydrateren van gegevens en het toepassen van uw configuratie op de service.
- Leg de hoofdoorzaak van het incident vast en voer maatregelen voor beperking uit voordat u met het herstel begint. Als de oorzaak van het incident bijvoorbeeld een beveiligingsprobleem is, verhelp dit probleem dan voordat u de betrokken systemen in uw failover-omgeving herstelt.
Als u uw app opnieuw in de failover-omgeving moet implementeren, gebruikt u tools om het implementatieproces zoveel mogelijk te automatiseren. Zorg ervoor dat uw Azure-pijplijnen vooraf zijn geïmplementeerd en correct zijn geconfigureerd in de failover-omgevingen, zodat u onmiddellijk met uw implementaties kunt beginnen. Maak gebruik van geautomatiseerde end-to-end-implementaties, waar nodig met handmatige goedkeuringspoorten, om een consistent en efficiënt implementatieproces te garanderen. Wanneer een fase van het implementatieproces handmatige tussenkomst vereist, documenteer dan de handmatige stappen. Definieer rollen en verantwoordelijkheden duidelijk.
Automatiseer zoveel van de procedure als mogelijk. Gebruik logica voor opnieuw proberen om te voorkomen dat u tijd verspilt aan scripts die vastlopen bij een defecte taak. Omdat u deze scripts alleen in noodgevallen uitvoert, wilt u niet dat verkeerd ontwikkelde scripts nog meer schade aanrichten of uw herstelproces vertragen.

Notitie

Automatisering brengt risico’s met zich mee. Getrainde operators moeten de geautomatiseerde processen zorgvuldig monitoren en ingrijpen als een proces problemen ondervindt. Om het risico dat automatisering op valse positieven reageert te minimaliseren, moet u grondig zijn in uw oefeningen voor herstel na noodgevallen. Test alle fasen van het plan. Simuleer detectie om waarschuwingen te genereren en doorloop vervolgens de gehele herstelprocedure.

Voer DR-herstelanalyses uit

Het is voor een goed plan voor herstel na noodgevallen essentieel dat u goed test. Veel industrieën hebben nalevingskaders die regelmatige oefeningen voor herstel na noodgevallen vereisen. Ongeacht uw branche zijn frequente oefeningen bij herstel na noodgevallen cruciaal voor uw succes.

Volg deze aanbevelingen voor succesvolle oefeningen voor herstel na noodgevallen:

Voer minimaal één oefening voor herstel na noodgevallen per jaar uit in de productieomgeving. Oefeningen buiten de productieomgeving helpen ervoor te zorgen dat de betrokken partijen bekend zijn met hun rollen en verantwoordelijkheden. Deze oefeningen helpen operators ook bekendheid op te bouwen door herstelprocessen te volgen. Maar alleen oefeningen in de productieomgeving testen de geldigheid van het plan voor herstel na noodgevallen, de RTO- en RPO-statistieken echt. Gebruik uw oefeningen in de productieomgeving om herstelprocessen voor onderdelen en stromen te timen om ervoor te zorgen dat de RTO- en RPO-doelstellingen die voor uw workload zijn gedefinieerd, haalbaar zijn. Voor functies waar u geen controle over heeft, zoals Microsoft Entra ID-storingen, moet u ervoor zorgen dat de RTO- en RPO-doelstellingen voor de stromen waarbij deze functies betrokken zijn, rekening houden met mogelijke vertragingen waarover u geen controle heeft.
Gebruik testoefeningen om nieuwe operators voor te lichten over processen en procedures voor herstel na noodgevallen. Senior operators moeten de tijd nemen om nieuwe operators hun rol te laten vervullen en moeten letten op mogelijkheden voor verbetering. Als een nieuwe operator aarzelt of in de war raakt door een stap in een procedure, controleer dan die procedure om er zeker van te zijn dat deze duidelijk is geschreven.

Overwegingen

Het uitvoeren van oefeningen voor herstel na noodgevallen tijdens de productie kan onverwachte catastrofale storingen veroorzaken. Zorg ervoor dat u tijdens uw initiële implementatie de herstelprocedures test buiten de productieomgevingen.

Geef uw team tijdens oefeningen zoveel onderhoudstijd als mogelijk. Wanneer u onderhoudstijd plant, gebruikt u de herstelstatistieken die u tijdens het testen vastlegt als eenheden voor minimaal benodigde tijd.

Naarmate uw oefeningen voor herstel na noodgevallen in een volwassener fase komen, leert u welke procedures u parallel kunt uitvoeren en welke u achtereenvolgend moet uitvoeren. Ga er al vroeg in uw oefening van uit dat elke procedure op volgorde moet worden uitgevoerd en dat u bij elke stap extra tijd nodig heeft om onverwachte problemen op te lossen.

Failover-mogelijkheden

Microsoft Zakelijke toepassingen bieden BCDR-mogelijkheden (Business Continuity and Disaster Recovery) aan alle productieomgevingen in Dynamics 365 en SAAS-toepassingen (Software as a Service). Power Platform Ontdek hoe u ervoor zorgt dat uw productiegegevens veerkrachtig blijven tijdens regionale uitval. Microsoft

Controlelijst voor betrouwbaarheid

Raadpleeg de volledige reeks aanbevelingen.

Controlelijst betrouwbaarheid

Delen via