Aanbevelingen voor het ontwerpen van een strategie voor noodrespons
Van toepassing op deze aanbeveling voor de Well-Architected Operational Excellence-checklist: Power Platform
OE:07 | Ontwikkel een effectieve praktijk voor noodoperaties. Zorg ervoor dat uw workload zinvolle statussignalen biedt. Verzamel de resulterende gegevens en gebruik deze om bruikbare waarschuwingen te genereren waarmee u via dashboards en query's noodmaatregelen kunt nemen. Definieer duidelijk de menselijke verantwoordelijkheden, zoals rotaties voor beschikbaarheid, incidentbeheer, toegang tot noodresources en het uitvoeren van postmortems. |
---|
In deze gids worden de aanbevelingen beschreven voor het ontwerpen van een strategie voor de noodrespons. Sommige van uw workloads zijn mogelijk bedrijfskritisch en problemen die zich gedurende de levenscyclus van een workload voordoen, kunnen ernstig genoeg zijn om ze tot noodgeval te verklaren. U kunt strak gecontroleerde en gerichte processen en procedures implementeren die uw team kan volgen om ervoor te zorgen dat een probleem op een rustige, ordelijke manier wordt afgehandeld. Noodsituaties verhogen uiteraard ieders stressniveau en kunnen tot een chaotische omgeving leiden als uw team niet goed is voorbereid. Om stress en verwarring te helpen minimaliseren, ontwerpt u een responsstrategie, deelt u de responsstrategie met uw organisatie en voert u regelmatig training in noodrespons uit.
Belangrijke ontwerpstrategieën
Een strategie voor noodrespons moet uit een goed gedefinieerde reeks processen en procedures bestaan. Elk proces en elke procedure moet scripts hebben om ervoor te zorgen dat elke stap uw team helpt een probleem snel en veilig op te lossen. Om een strategie voor noodrespons te ontwikkelen, kunt u het volgende overzicht overwegen:
- Vereisten
- Een bewakingssyteem ontwerpen
- Een incidentresponsplan maken
- Incidentfasen
- Detectie en inperking
- Triage
- Post-incident-fasen
- Hoofdoorzaakanalyse (RCA)
- Nabeschouwingen
- Lopende activiteit
- Noodrespons
De volgende gedeelten bevatten aanbevelingen voor elk van deze fasen.
Monitoringsysteem
Om een robuuste respons-noodstrategie te hebben, hebt u een robuust monitoringsysteem of observatieplatform nodig. Uw observatieplatform moet de volgende kenmerken hebben:
Holistische monitoring: Zorg ervoor dat u uw workload grondig monitort vanuit een configuratie- en applicatieperspectief en neem infrastructuurmonitoring op als componenten van uw workload in de cloud of on-premises worden gehost. Zorg ervoor dat alle onderdelen van uw werklast worden gedekt door uw monitoringstrategie. Als uw workload bijvoorbeeld communiceert met Azure-resources of een on-premises-systeem, neemt u die componenten op in uw bewaking.
Uitgebreide logging: Schakel uitgebreide logging in voor uw componenten ter ondersteuning van onderzoeken wanneer u een probleem sorteert. Structureer logboeken zodat ze eenvoudig te beheren zijn. Stuur automatisch logboeken naar gegevens-sinks om ze voor te bereiden op analyse.
Handige dashboards: Maak dashboards op basis van uw gezondheidsmodel die zijn afgestemd op elk team in uw organisatie. Verschillende teams zijn verantwoordelijk voor verschillende aspecten van de status van de workload.
Bruikbare waarschuwingen: Maak waarschuwingen die nuttig zijn voor uw werklastteams. Vermijd waarschuwingen waarvoor geen actie van uw teams vereist is. Te veel van dit soort waarschuwingen kunnen ertoe leiden dat mensen meldingen over waarschuwingen negeren of blokkeren.
Automatische meldingen: Zorg ervoor dat de juiste teams automatisch meldingen ontvangen die actie van hen vereisen. Uw Tier 1-ondersteuningsteam moet bijvoorbeeld meldingen ontvangen voor alle waarschuwingen, terwijl uw beveiligingstechnici alleen meldingen mogen ontvangen voor beveiligingsgebeurtenissen.
Meer informatie vindt u in Aanbevelingen voor het ontwerpen en maken van een monitoringframework.
Incidentresponsplan
De basis van een strategie voor noodrespons is een incidentresponsplan. Net als bij een rampenherstelplan moet u de rollen, verantwoordelijkheden en procedures voor het reageren op een incident duidelijk en grondig definiëren. Het plan moet een document zijn dat is voorzien van versiebeheer en regelmatig wordt gecontroleerd om ervoor te zorgen dat het up-to-date is.
Definieer de volgende onderdelen duidelijk in uw plan.
Functies
Identificeer een incidentresponsmanager. Deze persoon is eigenaar van het incident, van initiatie tot herstel tot aan de hoofdoorzaakanalyse. Een incident respons manager zorgt ervoor dat processen worden gevolgd en dat de juiste partijen worden geïnformeerd terwijl het respons team zijn werk uitvoert.
Identificeer een nabeschouwingsleider. Deze persoon zorgt ervoor dat nabeschouwingen kort nadat het incident is opgelost, worden uitgevoerd. Ze maken een rapport, waardoor u de bevindingen uit het incident kunt toepassen.
Processen en procedures
Uw workloadteam moet noodcriteria definiëren en begrijpen. Wanneer uw team vaststelt dat het om een ernstig geval is, kunt u iets als noodgeval verklaren en het plan voor herstel na noodgevallen initiëren. In minder ernstige gevallen voldoet het probleem mogelijk niet aan de criteria van een ramp, maar moet u het probleem nog steeds als een noodgeval beschouwen. In dat geval moet u het noodplan respons in werking stellen. Noodsituaties kunnen intern aan uw werklast liggen, zoals bugs in uw applicatiecode, of het gevolg zijn van een probleem met een afhankelijkheid van uw werklast, zoals de onbeschikbaarheid van een API of database. Een noodsituatie kan ook worden veroorzaakt door een storing bij uw leverancier (zoals een probleem met Microsoft Entra ID of Power Platform). Het ondersteuningsteam moet kunnen bepalen of een probleem voldoet aan de criteria voor een noodsituatie, zelfs als het team geen inzicht heeft in het onderliggende probleem.
Definieer de communicatie- en escalatieplannen nauwkeurig. Zorg ervoor dat de leden van uw Tier 1-ondersteuningsteam eenvoudig contact kunnen opnemen met de juiste teams om problemen te escaleren, op basis van het type waarschuwingsmelding dat ze ontvangen.
Andere items om op te nemen
Documenteer alle standaardhulpmiddelen die tijdens incidenten worden gebruikt voor interne communicatie, zoals Microsoft Teams, en voor het volgen van de activiteiten gedurende het incident, zoals ticketingtools of backlogplanningtools.
Documenteer uw noodreferenties, ook wel bekend als accounts voor noodgevallen. Voeg een stapsgewijze guide toe waarin wordt beschreven hoe ze moeten worden gebruikt.
Maak noodinstructies respons details weergeven en houd bij wanneer oefeningen worden uitgevoerd.
Documenteer alle noodzakelijke juridische of regelgevende maatregelen, zoals het melden van datalekken.
Incidentdetectie en -beheersing
Als u over een goed ontworpen bewakingssysteem beschikt dat afwijkingen controleert en er automatisch voor waarschuwt, kunt u snel problemen detecteren en de ernst ervan bepalen. Als het probleem als een noodsituatie wordt beschouwd, kan het plan worden gestart. In sommige gevallen wordt het ondersteuningsteam niet via het monitoringsysteem op de hoogte gebracht. Gebruikers kunnen problemen melden aan ondersteuning door gebruik te maken van de communicatiekanalen van het ondersteuningsteam. Of ze kunnen contact opnemen met mensen met wie ze regelmatig samenwerken of van wie ze weten dat ze met hen samenwerken, zoals de beheerders van uw serviceafdeling of het Center of Excellence-team. Power Platform Power Platform Ongeacht hoe het ondersteuningsteam op de hoogte wordt gesteld, ze moeten altijd dezelfde stappen volgen om het probleem te valideren en de ernst ervan vast te stellen. Afwijking van het responsplan kan stress en verwarring veroorzaken.
Triage
De eerste stap bij het oplossen van problemen is het identificeren van het onderdeel van de workload dat het probleem veroorzaakt. De stappen die u tijdens de triage volgt, zijn afhankelijk van het type probleem. Het team voor een bepaald gebied van werklastondersteuning moet procedures opstellen voor incidenten die verband houden met zijn werk. Beveiligingsteams moeten bijvoorbeeld beveiligingsproblemen beoordelen en de scripts volgen die ze ontwikkelen. Het is belangrijk dat teams goed gedefinieerde scripts volgen terwijl ze hun triage-inspanningen uitvoeren. Deze scripts moeten stapsgewijze instructies bevatten die rollbackprocessen bevatten om wijzigingen ongedaan te maken die niet effectief zijn of andere problemen kunnen veroorzaken. Nadat het probleem is opgelost, volgt u goed gedefinieerde processen om het getroffen onderdeel veilig terug te brengen in de stroompaden van de workload.
Rapportage voor hoofdoorzaakanalyse
De eigenaar van het incident of iemand die nauw met hem of haar heeft samengewerkt, moet de RCA-rapporten (Root Cause Analysis) opstellen. Deze strategie zorgt voor een nauwkeurig verslag van het incident. Normaal gesproken hebben organisaties een vastgesteld RCA-sjabloon met richtlijnen over hoe informatie wordt gepresenteerd en welke soorten informatie wel of niet kunnen worden gedeeld. Als u uw eigen sjabloon en richtlijnen moet maken, zorg er dan voor dat belanghebbenden deze controleren en goedkeuren.
Nabeschouwingen van incidenten
Een onpartijdig individu moet nabeschouwingen zonder schuldvraag leiden. Tijdens nabeschouwingssessies deelt iedereen zijn bevindingen over een incident. Elk team dat betrokken was bij het incident respons moet vertegenwoordigd worden door personen die aan het incident hebben gewerkt. Deze personen moeten voorbereid naar de sessie komen met voorbeelden van succesvolle acties en van de gebieden die verbeterd kunnen worden. De sessie is geen forum om de schuld voor het incident aan te wijzen of voor problemen die zich tijdens respons kunnen voordoen. De nabeschouwingsleider moet na de sessie een duidelijke lijst met actiepunten hebben, die zijn gericht op verbetering, zoals:
- Verbeteringen van het responsplan. Processen of procedures moeten mogelijk opnieuw worden geëvalueerd en herschreven om de juiste acties beter vast te leggen.
- Verbeteringen aan het bewakingssysteem. Het kan zijn dat drempelwaarden opnieuw moeten worden geëvalueerd om het specifieke type incident eerder te kunnen onderkennen, of dat er een nieuw type bewaking moet worden geïmplementeerd om gedrag op te sporen waarmee geen rekening is gehouden.
- Verbeteringen in de workload. Het incident kan een kwetsbaarheid in de workload blootleggen die als permanente oplossing moet worden aangepakt.
Overwegingen
Uw strategie voor noodrespons moet nauw aansluiten bij uw algehele Power Platform-ondersteuningsstrategie. Bespreek samen met uw beheerders en het Center of Excellence-team de ondersteunings- en noodopties en -processen die mogelijk al zijn gedefinieerd. Power Platform
Terwijl u uw ondersteuningsproces en escalatiepad definieert, is het belangrijk oplossingen te categoriseren die op basis van kriticiteit zijn gebouwd. Met deze aanpak kunt u processen opzetten die ervoor zorgen dat kritieke applicaties over de nodige beschermingsmaatregelen beschikken om ze te ondersteunen, zonder dat dit de innovatie van productiviteitsscenario's belemmert of uw incident respons-teams overbelast. Denk bij het definiëren van uw ondersteuningsmodellen ook na over een overgangstraject. Een oplossing kan in eerste instantie alleen ondersteuning op productiviteitsniveau vereisen, maar naarmate de functionaliteit of het aantal gebruikers groeit, is er een hoger ondersteuningsniveau nodig. Definieer hoe makers meer formele ondersteuning kunnen aanvragen en een oplossing kunnen overzetten naar ondersteunde omgevingen.
Power Platform-facilitering
Power Platform integreert met Application Insights, dat onderdeel is van het Azure Monitor-ecosysteem. Gebruik deze integratie voor:
Ontvang telemetrie over diagnostiek en prestaties die zijn vastgelegd door het Dataverse-platform in Application Insights. U kunt zich abonneren op het ontvangen van telemetrie over bewerkingen die toepassingen uitvoeren op uw Dataverse-database en binnen modelgestuurde apps. Deze telemetrie biedt informatie die u kunt gebruiken om problemen met betrekking tot fouten en prestaties te diagnosticeren en op te lossen.
Koppel uw canvas-apps met Application Insights. U kunt deze analyses gebruiken om problemen te diagnosticeren en inzicht te krijgen in wat gebruikers met uw apps doen. U kunt informatie verzamelen om u te helpen betere zakelijke beslissingen te nemen en de kwaliteit van uw apps te verbeteren.
Configure Power Automate telemetrie instromen Application Insights ; bijvoorbeeld om uitvoeringen van cloudstroom te bewaken en waarschuwingen te maken voor mislukte uitvoeringen van cloudstroom.
Leg telemetriegegevens van uw Microsoft Copilot Studio copiloot vast voor gebruik in Azure Application Insights. Met deze telemetrie kunt u geregistreerde berichten en gebeurtenissen bewaken die naar en van uw copiloot worden verzonden, onderwerpen die tijdens gebruikersgesprekken moeten worden geactiveerd en aangepaste telemetriegebeurtenissen die vanuit uw onderwerpen kunnen worden verzonden.
Application Insights is een uitgebreide oplossing voor het verzamelen, analyseren en reageren op bewakingsgegevens uit cloud- en on-premises-omgevingen. Het bevat een robuust waarschuwingsplatform dat u kunt configureren voor automatische meldingen en andere acties.
De Power Platform-kit voor automatisering is een set tools die het gebruik en de ondersteuning van Power Automate voor bureaublad versnelt bij automatiseringsprojecten. De kit biedt tools waarmee u automatiseringsprojecten kunt beheren en bewaken om het bespaarde geld en het investeringsrendement te schatten. Een onderdeel van de automatiseringskit is de controlecentrum, wat een aanvulling is op de bestaande Monitor bureaubladstroom runs-functie. De belangrijkste focus van het controlecentrum is een orkestratievisie voor ondersteuningsanalisten en organisaties om te monitoren, actie te ondernemen en te waarschuwen wanneer dat nodig is.
Gerelateerde informatie
- Aanbevelingen voor het ontwerpen en creëren van een monitoringsysteem
- Aanbevelingen voor het ontwerpen van een betrouwbare monitoring- en waarschuwingsstrategie
- Strategie voor ondersteuning van gebruikers en makers