Rekommendationer för utformning av en strategi för nödsituationsrespons
Gäller för den här Power Platform checklisterekommendationen för driftförutsättningar för välstrukturerat ramverk:
OE:07 | Utveckla en effektiv metod för nödsituationsåtgärder. Se till att arbetsbelastningen avger meningsfulla hälsosignaler. Samla in resulterande data och använd dem för att generera åtgärdsbara aviseringar som antar nödåtgärder via instrumentpaneler och frågor. Definiera tydligt det mänskliga ansvaret, t.ex. jourrotation, incidenthantering, åtkomst till nödresurser och att genomför utredningar. |
---|
I den här guiden beskrivs rekommendationer om hur du utformar en strategi för nödsituationsrespons. Vissa av dina arbetsbelastningar kan vara verksamhetskritiska och problem som uppstår under en arbetsbelastnings livscykel kan vara tillräckligt allvarliga för att motivera att de deklareras som nödsituationer. Du kan implementera välkontrollerade och fokuserade processer och procedurer som ditt team kan följa för att säkerställa att ett problem hanteras på ett korrekt och ordnat sätt. I nödsituationer kan allas förhöjda stressnivåer dessutom leda till en kaotisk miljö om teamet inte är väl förberedda. För att minimera stress och förvirring kan du utforma en responsstrategi, dela responsstrategin med organisationen och utföra regelbunden utbildning i nödsituationsrespons.
Viktiga designstrategier
En nödsituationsrespons ska vara en väldefinierad uppsättning processer och procedurer. Varje process och procedur bör ha skript för att säkerställa att varje steg leder ditt team mot att snabbt och säkert lösa ett problem. Tänk på följande om du vill utveckla en strategi för nödsituationsrespons:
- Förutsättningar
- Utveckla ett övervakningssystem
- Skapa en plan för incidentsvar
- Incidentfaser
- Detektion och inneslutning
- Prioritering
- Efterföljande incidentfaser
- Grundorsaksanalys (RCA)
- Utredningar
- Pågående aktivitet
- Övningar i nödsituationsrespons
I följande avsnitt finns detaljerade rekommendationer för alla dessa faser.
Övervakningssystem
För att ha en robust strategi för akutrespons måste du ha ett robust övervakningssystem, eller en plattform för observerbarhet, på plats. Din överskådlighetsplattform bör ha följande egenskaper:
Holistisk övervakning: Övervaka arbetsbelastningen noggrant ur ett konfigurations- och programperspektiv och inkludera infrastrukturövervakning om komponenterna i arbetsbelastningen finns i molnet eller lokalt. Kontrollera att alla komponenter i din arbetsbelastning omfattas av din övervakningsstrategi. Om din arbetsbelastning till exempel interagerar med Azure resurser eller ett lokalt system inkluderar du dessa komponenter i övervakningen.
Utförlig loggning: Aktivera utförlig loggning för komponenterna för att underlägga undersökningar när du prioriterar ett problem. Strukturera loggar så att de är enkla att hantera. Skicka automatiskt loggar till datasänkor för att förberedas för analys.
Användbara instrumentpaneler: Skapa instrumentpaneler baserat på din hälsomodell som är skräddarsydda för varje team i organisationen. Olika team ansvarar för olika aspekter av arbetsbelastningens hälsa.
Användbara aviseringar: Skapa aviseringar som är användbara för arbetsbelastningsteamen. Undvik aviseringar som inte kräver någon åtgärd från dina team. För många aviseringar av den här typen kan leda till att personer ignorerar eller blockerar aviseringar.
Automatiska aviseringar: Se till att rätt team automatiskt får aviseringar som kräver en åtgärd från dem. Ditt supportteam på nivå 1 bör till exempel få meddelanden för alla aviseringar, medan dina säkerhetstekniker endast ska få aviseringar för säkerhetshändelser.
Läs mer i Rekommendationer för att designa och skapa ett övervakningsramverk.
Incidentsvarsplan
Grunden för en strategi för nödsituationsrespons är en incidentsvarsplan. Precis som med en haveriberedskapsplan bör du tydligt och noggrant definiera roller, ansvarsområden och procedurer för att svara på en incident. Planen bör vara ett versionskontrollerat dokument som regelbundet granskas för att garanterar att det är uppdaterat.
Definiera klart följande komponenter i din plan.
Roller
Identifiera en incidentsvarsansvarig. Den här personen äger incidenten från initiering till åtgärd till rotorsaksanalys. En incidenthanteringschef ser till att processer följs och att lämpliga parter informeras när svarsteamet utför sitt arbete.
Identifiera en utredningsledare. Den här personen ser till att utredningar utförs kort efter det att incidenten har stängts. De tar fram en rapport som hjälper dig att tillämpa de uppgifter som kommit ur incidenten.
Processer och procedurer
Arbetsbelastningsteamet ska definiera och förstå nödsituationskriterier. När ditt team fastställer att ett ärende är allvarligt kan du deklarera en katastrof och påbörja katastrofåterställningsplanen. I mindre allvarliga fall kanske problemet inte uppfyller kriterierna för en katastrof, men du bör ändå betrakta problemet som en nödsituation, vilket kräver att beredskapsplanen initieras. Nödsituationer kan antingen vara interna i din arbetsbelastning (t.ex. fel i programkoden) eller till följd av ett problem som beror på arbetsbelastningen (t.ex. om API:et eller databasen inte är tillgängligt). En nödsituation kan också bero på ett avbrott hos leverantören (t.ex. ett problem med Microsoft Entra ID eller Power Platform). Supportteamet måste kunna avgöra om ett problem uppfyller nödkriterierna, även om teamet inte har någon insyn i det underliggande problemet.
Definiera precisa kommunikationsplaner och eskaleringsplaner. Baserat på vilken typ av aviseringsmeddelande de får, se till att dina supportteammedlemmar på nivå 1 enkelt kan kontakta lämpliga team för eskalerande problem.
Andra objekt att ta med
Dokumentera alla standardverktyg som används under incidenter för intern kommunikation, t.ex. Microsoft Teams och för att spåra aktiviteterna under incidentens gång, till exempel ärendeverktyg eller verktyg för planering av kvarvarande uppgifter.
Dokumentera autentiseringsuppgifterna för nödsituationer, även kallade break-glass-konton. Ta med en steg-för-steg-guide som beskriver hur de ska användas.
Skapa instruktioner för beredskapsövningar och anteckna när övningar utförs.
Dokumentera alla juridiska eller regulatoriska åtgärder som krävs, till exempel att kommunicera dataintrång.
Incidentdetektering och inneslutning
När du har ett väldesignat övervakningssystem som övervakar avvikelser och automatiskt aviserar om dem, kan du snabbt upptäcka problem och fastställa hur allvarliga de är. Om problemet anses vara en nödsituation kan planen initieras. I vissa fall meddelas inte supportteamet via övervakningssystemet. Användare kanske rapporterar problem via supportteamets kommunikationsvägar. Eller så kan de kontakta personer som de regelbundet arbetar med eller som de vet arbetar med Power Platform, till exempel dina Power Platform tjänstadministratörer eller Center of Excellence-teamet. Oavsett hur supportteamet meddelas ska de alltid följa samma steg för att verifiera problemet och fastställa vad problemets allvarlighetsgrad. Avvikelser från svarsplanen kan skapa stress och förvirring.
Prioritering
Det första steget i att åtgärda problemet är att identifiera komponenten för den arbetsbelastning som orsakar problemet. Vilka steg du följer under prioriteringen beror på typen av problem. Teamet för ett visst område av arbetsbelastningsstöd bör skapa procedurer för incidenter som är relaterade till dess arbete. Säkerhetsteam bör till exempel lösa säkerhetsproblem och följa skript som de utvecklar. Det är viktigt att teamen följer väldefinierade skript allt eftersom de arbetar med prioriteringar. Dessa skript bör vara steg-för-steg-instruktioner som innehåller återställningsprocesser för att ångra ändringar som är ineffektiva eller kan orsaka andra problem. När problemet har lösts följer du väldefinierade processer för att säkert föra tillbaka den påverkade komponenten till arbetsbelastningens flödesvägar.
Rapport om grundorsaksanalys
Incidentägaren eller någon som har haft ett nära samarbete med dem bör skapa RCA-rapporter (Root Cause Analysis). Den här strategin säkerställer en korrekt redovisning av incidenten. Organisationer har ofta en definierad RCA-mall med riktlinjer för hur information presenteras och vilken slags information som kan eller inte kan delas. Om du behöver skapa en egen mall och egna riktlinjer ska du se till att intressenterna granskar och godkänner dem.
Utredningar av incidenter
En opartisk person ska leda klanderfria utredningar. I utredningssessioner delar alla med sig av sin information om incidenten. Varje team som var involverat i incidenthanteringen bör representeras av personer som arbetade med incidenten. Dessa personer bör komma förberedda till sessionen med exempel på de åtgärder som var framgångsrika och områden som kan förbättras. Sessionen är inte ett forum för att tilldela skuld för incidenten eller problem som kan uppstå under responsen. Utredningsledaren ska lämna sessionen med en tydlig lista med åtgärdspunkter som fokuserar på förbättringar, till exempel:
- Förbättringar av svarsplanen. Processer eller procedurer kan behöva utvärderas och skrivas om för att lämpliga åtgärder ska kunna vidtas på ett bättre sätt.
- Förbättringar av övervakningssystemet. Tröskelvärdena kan behöva fastställas igen för fånga upp den specifika typen av incident tidigare, eller också kan ny övervakning behöva implementeras för att fånga beteenden som inte hanterats.
- Förbättringar av arbetsbelastningen. Incidenten kan visa en säkerhetsrisk i arbetsbelastningen som måste åtgärdas som en permanent reparation.
Att tänka på
Din strategi för nödsituationsrespons ska anpassas noggrant efter din övergripande Power Platform-supportstrategi. Samarbeta med Power Platform-administratörerna och Center of Excellence-teamet för att diskutera alternativ och processer för support och akutrespons som kanske redan har definierats.
När du definierar supportprocessen och eskaleringsvägen är det viktigt att kategorisera lösningar som bygger på kritiskhet. Med den här metoden kan du upprätta processer som säkerställer att kritiska program har de skyddsräcken som krävs för att stödja dem, samtidigt som du inte kväver innovationen i produktivitetsscenarier eller överväldigar dina incidenthanteringsteam. När du definierar supportmodeller bör du också tänka hur lösningen utvecklas. En lösning kanske till en början bara kräver support på produktivitetsnivå, men växer i funktionalitet eller användarbas för att kräva en högre supportnivå. Definiera hur skapare kan begära mer formellt stöd och en övergång till en lösning till miljöer som stöds.
Underlätta Power Platform
Power Platform integreras med Application Insights, som ingår i Azure Monitor-ekosystemet. Använd integreringen för att:
Ta emot telemetri om diagnostik och prestanda som samlats in av Dataverse-plattformen i Application Insights. Du kan prenumerera på mottagning av telemetri om åtgärder som applikationer utför på din Dataverse databas och inom modellbaserade program. Denna telemetri innehåller information som du kan använda för att diagnostisera och felsöka problem relaterade till fel och prestanda.
Anslut dina arbetsyteappar till Application Insights. Med hjälp av dessa analyser kan du diagnostisera problem och förstå vad användarna gör med dina appar. Du kan samla in information som hjälper dig att fatta bättre affärsbeslut och förbättra kvaliteten på dina appar.
Konfigurera Power Automate telemetri som ska flöda till Application Insights, till exempel för att övervaka molnflödeskörningar och skapa aviseringar för fel vid molnflödeskörningar.
Samla in telemetridata från din Microsoft Copilot Studio agent för användning i Azure Application Insights. Du kan använda den här telemetrin för att övervaka loggade meddelanden och händelser som skickas till och från din agent, ämnen som ska utlösas under användarkonversationer och anpassade telemetrihändelser som kan skickas från dina ämnen.
Application Insights är en omfattande lösning för att samla in, analysera och svara på övervakning av data från molnmiljöer och lokal miljöer. Den innehåller en robust varningsplattform som du kan konfigurera för automatiska meddelanden och andra åtgärder.
Power Platform Automation Kit är en uppsättning verktyg som ökar hastigheten på användning och support för Power Automate för dator för automatiseringsprojekt. Paketet innehåller verktyg som hjälper dig att hantera automatiseringsprojekt och övervaka dem för att uppskatta sparade pengar och avkastning på investering (ROI). En del av automationspaketet är kontrollcentret, som kompletterar den befintliga funktionen Övervaka datorflödeskörningar. Fokus för Kontrollcenter är en initierarvy för supportanalytiker och organisationer för att övervaka, vidta åtgärder och vara alerta vid behov.
Relaterad information
- Rekommendationer för att utforma och skapa av ett övervakningssystem
- Rekommendationer för utformning av en tillförlitlig övervakningsstrategi och aviseringsstrategi
- Supportstrategi för användare och tillverkare