Aanbevelingen voor het ontwerpen van een strategie voor noodrespons

Artikel
01/15/2025

Van toepassing op deze aanbeveling voor de controlelijst voor operationele uitmuntendheid van Power Platform Well-Architected Framework:

OE:07

Ontwikkel een effectieve praktijk voor noodoperaties. Zorg ervoor dat uw workload zinvolle statussignalen biedt. Verzamel de resulterende gegevens en gebruik deze om bruikbare waarschuwingen te genereren waarmee noodmaatregelen via dashboards en query's in gang worden gezet. Definieer duidelijk de menselijke verantwoordelijkheden, zoals rotaties voor beschikbaarheid, incidentbeheer, toegang tot noodresources en het uitvoeren van postmortems.

In deze gids worden de aanbevelingen beschreven voor het ontwerpen van een strategie voor de noodrespons. Sommige van uw workloads zijn mogelijk bedrijfskritisch en problemen die zich gedurende de levenscyclus van een workload voordoen, kunnen ernstig genoeg zijn om ze tot noodgeval te verklaren. U kunt strak gecontroleerde en gerichte processen en procedures implementeren die uw team kan volgen om ervoor te zorgen dat een probleem op een rustige, ordelijke manier wordt afgehandeld. Noodsituaties verhogen uiteraard ieders stressniveau en kunnen tot een chaotische omgeving leiden als uw team niet goed is voorbereid. Om stress en verwarring te helpen minimaliseren, ontwerpt u een responsstrategie, deelt u de responsstrategie met uw organisatie en voert u regelmatig training in noodrespons uit.

Belangrijke ontwerpstrategieën

Een strategie voor noodrespons moet uit een goed gedefinieerde reeks processen en procedures bestaan. Voor elk proces en elke procedure zijn scripts nodig om ervoor te zorgen dat elke stap uw team helpt een probleem snel en veilig op te lossen. Om een strategie voor noodrespons te ontwikkelen, kunt u het volgende overzicht overwegen:

Vereisten
- Een bewakingssyteem ontwerpen
- Een incidentresponsplan maken
Incidentfasen
- Detectie en inperking
- Triage
Post-incident-fasen
- Hoofdoorzaakanalyse (RCA)
- Nabeschouwingen
Lopende activiteit
- Noodrespons

De volgende gedeelten bevatten aanbevelingen voor elk van deze fasen.

Bewakingssysteem

Om een robuuste noodresponsstrategie te kunnen hanteren, hebt u een robuust monitoringsysteem of observatieplatform nodig. Uw observatieplatform moet de volgende kenmerken hebben:

Holistische bewaking: zorg ervoor dat u uw workload grondig bewaakt vanuit een configuratie- en toepassingsperspectief en neem infrastructuurbewaking op als onderdelen van uw workload in de cloud of on-premises worden gehost. Zorg ervoor dat alle onderdelen van uw workload worden gedekt door uw monitoringstrategie. Als uw workload bijvoorbeeld communiceert met Azure-resources of een on-premises systeem, neemt u die onderdelen op in uw monitoring.
Uitgebreide logboekregistratie: schakel uitgebreide logboekregistratie in voor uw onderdelen om te helpen bij onderzoeken wanneer u een probleem beoordeelt. Structureer logboeken zodat ze eenvoudig te beheren zijn. Stuur automatisch logboeken naar gegevens-sinks om ze voor te bereiden op analyse.
Handige dashboards: maak dashboards op basis van uw gezondheidsmodel die zijn afgestemd op elk team in uw organisatie. Verschillende teams zijn verantwoordelijk voor verschillende aspecten van de status van de workload.
Actiegerichte waarschuwingen: maak waarschuwingen die nuttig zijn voor uw workloadteams. Vermijd waarschuwingen waarvoor geen actie van uw teams vereist is. Te veel van dit soort waarschuwingen kunnen ertoe leiden dat mensen meldingen over waarschuwingen negeren of blokkeren.
Automatische meldingen: zorg ervoor dat de juiste teams automatisch waarschuwingen ontvangen die actie van hen vereisen. Uw ondersteuningsteam op niveau 1 moet bijvoorbeeld meldingen ontvangen voor alle waarschuwingen, terwijl uw beveiligingsengineers alleen waarschuwingen moeten ontvangen voor beveiligingsgebeurtenissen.

Meer informatie vindt u in Aanbevelingen voor het ontwerpen en maken van een bewakingsraamwerk.

Incidentresponsplan

De basis van een strategie voor noodrespons is een incidentresponsplan. Net als bij een herstelplan na noodgeval moet u de rollen, verantwoordelijkheden en procedures voor het reageren op een incident duidelijk en grondig definiëren. Het plan moet een document zijn dat is voorzien van versiebeheer en regelmatig wordt gecontroleerd om ervoor te zorgen dat het up-to-date is.

Definieer de volgende onderdelen duidelijk in uw plan.

Functies

Identificeer een incidentresponsmanager. Deze persoon is eigenaar van het incident, van initiatie tot herstel tot aan de hoofdoorzaakanalyse. Een incidentresponsmanager zorgt ervoor dat processen worden gevolgd en dat de juiste partijen worden geïnformeerd terwijl het responsteam het werk uitvoert.

Identificeer een nabeschouwingsleider. Deze persoon zorgt ervoor dat nabeschouwingen kort nadat het incident is opgelost, worden uitgevoerd. Ze maken een rapport, waardoor u de bevindingen uit het incident kunt toepassen.

Processen en procedures

Uw workloadteam moet noodcriteria definiëren en begrijpen. Wanneer uw team vaststelt dat het om een ernstig geval is, kunt u iets als noodgeval verklaren en het plan voor herstel na noodgevallen initiëren. In minder ernstige gevallen voldoet het probleem mogelijk niet aan de criteria van een noodgeval, maar moet u het probleem nog steeds als een noodsituatie beschouwen, waarvoor het noodplan in werking moet treden. Noodsituaties kunnen intern zijn voor uw workload (zoals bugs in uw toepassingscode) of het gevolg zijn van een probleem met een afhankelijkheid van uw workload (zoals wanneer een API of een database niet beschikbaar is). Een noodsituatie kan ook worden veroorzaakt door een storing bij uw leverancier (zoals een probleem met Microsoft Entra ID of Power Platform). Het ondersteuningsteam moet kunnen bepalen of een probleem voldoet aan de criteria voor een noodsituatie, zelfs als het team geen inzicht heeft in het onderliggende probleem.

Definieer de communicatie- en escalatieplannen nauwkeurig. Zorg ervoor dat de leden van uw Laag 1-ondersteuningsteam eenvoudig contact kunnen opnemen met de juiste teams om problemen te escaleren, op basis van het type waarschuwingsmelding dat ze ontvangen.

Andere items om op te nemen

Documenteer alle standaardhulpmiddelen die tijdens incidenten worden gebruikt voor interne communicatie, zoals Microsoft Teams, en voor het volgen van de activiteiten gedurende het incident, zoals hulpprogramma's voor ticketing of backlogplanning.

Documenteer uw noodreferenties, ook wel bekend als accounts voor noodgevallen. Voeg een stapsgewijze guide toe waarin wordt beschreven hoe ze moeten worden gebruikt.

Maak instructies voor noodhulpoefeningen en houd bij wanneer oefeningen worden uitgevoerd.

Documenteer alle noodzakelijke wettelijke of regelgevende maatregelen, zoals het melden van datalekken.

Incidentdetectie en -inperking

Als u over een goed ontworpen bewakingssysteem beschikt dat afwijkingen controleert en er automatisch voor waarschuwt, kunt u snel problemen detecteren en de ernst ervan bepalen. Als het probleem als een noodsituatie wordt beschouwd, kan het plan worden gestart. In sommige gevallen wordt het ondersteuningsteam niet via het monitoringsysteem op de hoogte gebracht. Gebruikers kunnen problemen melden aan ondersteuning door gebruik te maken van de communicatiekanalen van het ondersteuningsteam. Of ze kunnen contact opnemen met mensen met wie ze regelmatig samenwerken of van wie ze weten dat ze met Power Platform werken, zoals de Power Platform-beheerders van uw serviceafdeling of het Center of Excellence-team. Ongeacht hoe het ondersteuningsteam op de hoogte wordt gesteld, ze moeten altijd dezelfde stappen volgen om het probleem te valideren en de ernst ervan vast te stellen. Afwijking van het responsplan kan stress en verwarring veroorzaken.

Triage

De eerste stap bij het oplossen van problemen is het identificeren van het onderdeel van de workload dat het probleem veroorzaakt. De stappen die u tijdens de triage volgt, zijn afhankelijk van het type probleem. Het team voor een bepaald gebied van workloadondersteuning moet procedures opstellen voor incidenten die verband houden met het werk. Beveiligingsteams moeten bijvoorbeeld beveiligingsproblemen beoordelen en de scripts volgen die ze ontwikkelen. Het is belangrijk dat teams goed gedefinieerde scripts volgen terwijl ze hun triage-inspanningen uitvoeren. Deze scripts moeten stapsgewijze instructies bevatten die rollbackprocessen bevatten om wijzigingen ongedaan te maken die niet effectief zijn of andere problemen kunnen veroorzaken. Nadat het probleem is opgelost, volgt u goed gedefinieerde processen om het getroffen onderdeel veilig terug te brengen in de stroompaden van de workload.

Rapportage voor hoofdoorzaakanalyse

De eigenaar van het incident of iemand die nauw met hem of haar heeft samengewerkt, moet de rapporten met hoofdoorzaakanalyses opstellen. Deze strategie zorgt voor een nauwkeurig verslag van het incident. Normaal gesproken hebben organisaties een vastgesteld RCA-sjabloon met richtlijnen over hoe informatie wordt gepresenteerd en welke soorten informatie wel of niet kunnen worden gedeeld. Als u uw eigen sjabloon en richtlijnen moet maken, zorg er dan voor dat belanghebbenden deze controleren en goedkeuren.

Nabeschouwingen van incidenten

Een onpartijdig individu moet nabeschouwingen zonder schuldvraag leiden. Tijdens nabeschouwingssessies deelt iedereen zijn bevindingen over een incident. Elk team dat betrokken was bij de respons op het incident, moet vertegenwoordigd zijn door personen die aan het incident hebben gewerkt. Deze personen moeten voorbereid naar de sessie komen met voorbeelden van succesvolle acties en van de gebieden die verbeterd kunnen worden. De sessie is geen forum om de schuld voor het incident aan te wijzen of voor problemen die tijdens de respons naar voren kunnen komen. De nabeschouwingsleider moet na de sessie een duidelijke lijst met actiepunten hebben, die zijn gericht op verbetering, zoals:

Verbeteringen van het responsplan. Processen of procedures moeten mogelijk opnieuw worden geëvalueerd en herschreven om de juiste acties beter vast te leggen.
Verbeteringen aan het bewakingssysteem. Het kan zijn dat drempelwaarden opnieuw moeten worden geëvalueerd om het specifieke type incident eerder te kunnen onderkennen, of dat er een nieuw type bewaking moet worden geïmplementeerd om gedrag op te sporen waarmee geen rekening is gehouden.
Verbeteringen in de workload. Het incident kan een kwetsbaarheid in de workload blootleggen die als permanente oplossing moet worden aangepakt.

Overwegingen

Uw strategie voor noodrespons moet nauw aansluiten bij uw algehele Power Platform-ondersteuningsstrategie. Bespreek samen met uw Power Platform-beheerders en het Center of Excellence-team de opties voor ondersteuning en noodrespons en processen die mogelijk al zijn gedefinieerd.

Terwijl u uw ondersteuningsproces en escalatiepad definieert, is het belangrijk oplossingen te categoriseren die op basis van kriticiteit zijn gebouwd. Met deze aanpak kunt u processen opzetten die ervoor zorgen dat kritieke toepassingen over de nodige bescherming beschikken om ze te ondersteunen, zonder dat dit de innovatie van productiviteitsscenario's belemmert of uw incidentresponsteams overbelast. Denk bij het definiëren van uw ondersteuningsmodellen ook na over een overgangstraject. Een oplossing kan in eerste instantie alleen ondersteuning op productiviteitsniveau vereisen, maar naarmate de functionaliteit of het aantal gebruikers groeit, is er een hoger ondersteuningsniveau nodig. Definieer hoe makers meer formele ondersteuning kunnen aanvragen en een oplossing kunnen overzetten naar ondersteunde omgevingen.

Power Platform-facilitering

Power Platform integreert met Application Insights, dat onderdeel is van het Azure Monitor-ecosysteem. Gebruik deze integratie voor:

Ontvang telemetrie over diagnostiek en prestaties die zijn vastgelegd door het Dataverse-platform in Application Insights. U kunt zich abonneren op het ontvangen van telemetrie over bewerkingen die toepassingen uitvoeren op uw Dataverse-database en binnen modelgestuurde apps. Deze telemetrie biedt informatie die u kunt gebruiken om problemen met betrekking tot fouten en prestaties te diagnosticeren en op te lossen.
Koppel uw canvas-apps met Application Insights. U kunt deze analyses gebruiken om problemen te diagnosticeren en inzicht te krijgen in wat gebruikers met uw apps doen. U kunt informatie verzamelen om u te helpen betere zakelijke beslissingen te nemen en de kwaliteit van uw apps te verbeteren.
Configureer Power Automate-telemetrie zo dat deze naar Application Insights stroomt; bijvoorbeeld om cloudstroomuitvoeringen te bewaken en waarschuwingen te maken voor mislukte cloudstroomuitvoeringen.
Leg telemetriegegevens vast van uw Microsoft Copilot Studio agent voor gebruik in Azure Application Insights. U kunt deze telemetrie gebruiken om geregistreerde berichten en gebeurtenissen te bewaken die naar en van uw agent worden verzonden, onderwerpen die tijdens gebruikersgesprekken moeten worden geactiveerd en aangepaste telemetriegebeurtenissen die vanuit uw onderwerpen kunnen worden verzonden.

Application Insights is een uitgebreide oplossing voor het verzamelen, analyseren en reageren op bewakingsgegevens uit cloud- en on-premises-omgevingen. Het bevat een robuust waarschuwingsplatform dat u kunt configureren voor automatische meldingen en andere acties.

De Power Platform-kit voor automatisering is een set tools die het gebruik en de ondersteuning van Power Automate voor bureaublad versnelt bij automatiseringsprojecten. De kit biedt tools waarmee u automatiseringsprojecten kunt beheren en bewaken om het bespaarde geld en het investeringsrendement te schatten. Onderdeel van de Automatiseringskit is het controlecentrum, dat een aanvulling is op de bestaande functie voor het bewaken van bureaubladstroomuitvoeringen. De belangrijkste focus van het controlecentrum is een orkestratievisie voor ondersteuningsanalisten en organisaties om te monitoren, actie te ondernemen en te waarschuwen wanneer dat nodig is.

Volgende stappen

Controlelijst voor operationele uitmuntendheid

Delen via

Aanbevelingen voor het ontwerpen van een strategie voor noodrespons

Belangrijke ontwerpstrategieën

Bewakingssysteem

Incidentresponsplan

Functies

Processen en procedures

Andere items om op te nemen

Incidentdetectie en -inperking

Triage

Rapportage voor hoofdoorzaakanalyse

Nabeschouwingen van incidenten

Overwegingen

Power Platform-facilitering

Volgende stappen

Feedback

Aanvullende resources

Delen via

Aanbevelingen voor het ontwerpen van een strategie voor noodrespons

Belangrijke ontwerpstrategieën

Bewakingssysteem

Incidentresponsplan

Functies

Processen en procedures

Andere items om op te nemen

Incidentdetectie en -inperking

Triage

Rapportage voor hoofdoorzaakanalyse

Nabeschouwingen van incidenten

Overwegingen

Power Platform-facilitering

Gerelateerde informatie

Volgende stappen

Feedback

Aanvullende resources