Anbefalinger til design af nødberedskab
Dette gælder for denne Power Platform kontrolliste til velarkitekt driftsmæssige kontrollister:
OE:07 | Udarbejd en effektiv nøddriftspraksis. Sørg for, at arbejdsbelastningen sender meningsfulde tilstandssignaler. Indsaml de resulterende data, og brug dem til at generere handlingsrettede advarsler, der udfører nødsvar via dashboards og forespørgsler. Definer klart de personalemæssige ansvarsområder, f.eks. rotationer ved opkald, hændelsesstyring, nødressourceadgang og kørsel af postmortems. |
---|
I denne vejledning beskrives anbefalingerne til udarbejdelse af nødresponsstrategi. Nogle af dine arbejdsbelastninger kan være missionskritiske, og problemer, der opstår i løbet af en arbejdsbelastnings livscyklus, kan være alvorlige nok til at berettige til at erklære dem nødsituationer. Du kan implementere nøje styrede og målrettede processer og procedurer, som dit team kan følge for at sikre, at et problem håndteres på en velordnet måde. Nødsituationer medfører, at alles stressniveauer hæves, og at det kan føre til et kaotisk miljø, hvis dit team ikke er velforberedt. Du kan minimere stress og forvirring ved at designe en responsstrategi, dele responsstrategien med din organisation og jævnligt udføre oplæring i nødrespons.
Vigtigste designstrategier
En strategi for nødrespons skal være et veldefineret sæt processer og procedurer. Hver proces og procedure bør have scripts for at sikre, at dit team for hvert trin bevæger sig mod hurtig og sikker løsning af et problem. Hvis du vil udvikle en nødresponsstrategi, skal du overveje følgende oversigt:
- Forudsætninger
- Udvikle et overvågningssystem
- Oprette en hændelsesresponsplan
- Hændelsesfaser
- Detektion og indeslutning
- Visiter
- Efterhændelsesfaser
- Analyse af rodårsag (RCA)
- Postmortem
- Igangværende aktivitet
- Nødsvarsøvelser
Følgende afsnit indeholder anbefalinger til hver af disse faser.
Systemovervågning
For at have en robust beredskabsstrategi skal du have et robust overvågningssystem eller observationsplatform på plads. Din observationsplatform skal have følgende karakteristika:
Holistisk overvågning: Sørg for at overvåge arbejdsbelastningen grundigt fra et konfigurations- og programsynspunkt, og inkluder overvågning af infrastrukturen, hvis komponenterne i din arbejdsbelastning har en cloudvært eller er i det lokale miljø. Sørg for, at alle komponenter i din arbejdsbelastning er dækket af din overvågningsstrategi. Hvis din arbejdsbelastning f.eks. interagerer med Azure ressourcer eller et system i det lokale miljø, skal du medtage disse komponenter i overvågningen.
Detaljeret logføring: Aktivér detaljeret logføring for dine komponenter for at hjælpe med undersøgelser, når du prioriterer et problem. Strukturér logge, så de er nemme at administrere. Send automatisk logge til data sinks, så de kan forberedes til analyse.
Nyttige dashboards: Opret dashboards baseret på din tilstandsmodel, der er skræddersyet til hvert team på tværs af din organisation. De forskellige teams er ansvarlige for forskellige aspekter af arbejdsbelastningens tilstand.
Handlingsrettede meddelelser: Opret vigtige beskeder, der er nyttige for dine arbejdsbelastningsteams. Undgå advarsler, der ikke kræver handling fra dine teams. For mange beskeder af denne type kan medføre, at brugere ignorerer eller blokerer vigtige beskeder.
Automatiske meddelelser: Sørg for, at de relevante teams automatisk modtager beskeder, der kræver handling fra dem. Dit Niveau 1-supportteam skal f.eks. modtage beskeder om alle advarsler, mens dine sikkerhedsteknikere kun skal modtage advarsler for sikkerhedshændelser.
Få mere at vide i Anbefalinger til design og oprettelse af overvågningssystem.
Plan for hændelsesrespons
Fundamentet for en nødresponsstrategi er en hændelsesresponsplan. Som med en katastrofeberedskabsplan skal du klart og grundigt definere roller, ansvarsområder og procedurer for at reagere på en hændelse. Planen skal være et versionstyret dokument, der jævnligt gennemgås for at sikre, at det er opdateret.
Definer tydeligt følgende komponenter i planen.
Roller
Identificer en hændelsesresponschef. Denne person ejer hændelsen fra initiering til afhjælpning af analyse af rodårsag. En incidentresponschef sikrer, at processer følges, og at de relevante parter informeres, når beredskabet udfører sit arbejde.
Identificer en postmortem-leder. Denne person sikrer, at postmortems udføres kort tid efter, at hændelsen er løst. De udarbejder en rapport, som kan hjælpe dig med at anvende de resultater, der kommer ud af hændelsen.
Processer og procedurer
Arbejdsbelastningsteamet skal definere og forstå nødkriterier. Når dit team vurderer, at en sag er alvorlig, kan du erklære en katastrofe og starte planen for it-katastrofeberedskab. I mindre alvorlige tilfælde opfylder problemet muligvis ikke kriterierne for en katastrofe, men du bør stadig betragte problemet som en nødsituation, hvilket kræver, at beredskabsplanen påbegyndes. Nødsituationer kan enten være interne for din arbejdsbelastning (f.eks. fejl i din programkode) eller et resultat af et problem med en afhængighed af arbejdsbelastningen (f.eks. utilgængelighed for et API eller en database). En nødsituation kan også skyldes an afbrydelse hos leverandøren (f.eks. et problem med Microsoft Entra ID eller Power Platform). Supportteamet skal være i stand til at afgøre, om et problem opfylder nødkriterierne, selvom teamet ikke har nogen synlighed i det underliggende problem.
Definer præcist kommunikation og eskaleringsplaner. Baseret på den type advarselsmeddelelse, de modtager, skal du sikre, at dine medlemmer af supportteamet på niveau 1 nemt kan kontakte de relevante teams for eskalerende sager.
Andre punkter, der skal medtages
Dokumentér alle standardværktøjer, der bruges under hændelser til intern kommunikation, f.eks. Microsoft Teams, og til sporing af aktiviteterne i løbet af hændelsen, f.eks. billetværktøjer eller værktøjer til planlægning af efterslæb.
Dokumentér dine nødlegitimationsoplysninger, som også kaldes break-glass-accounts. Inkluder en trinvis vejledning, der beskriver, hvordan de skal bruges.
Opret beredskabsboreinstruktioner, og registrer, hvornår øvelser udføres.
Dokumentér eventuelle juridiske eller lovgivningsmæssige foranstaltninger, der er nødvendige, såsom kommunikation af databrud.
Registrering og inddæmning af hændelser
Når du har et veldesignet overvågningssystem, der overvåger for afvigelser og automatisk giver besked om dem, kan du hurtigt registrere problemer og fastlægge, hvor alvorlige de er. Hvis problemet anses for at være en nødsituation, kan planen startes. I nogle tilfælde får supportteamet ikke besked via overvågningssystemet. Brugere kan rapportere problemer til support ved hjælp af supportteamkommunikation. De kan også kontakte personer, som de arbejder regelmæssigt sammen med, eller som de ved arbejder sammen med Power Platform, f.eks. dine Power Platform serviceadministratorer eller Center of Excellence-teamet. Uanset hvordan supportteamet får besked, skal de altid følge de samme trin for at validere problemet og fastslå, hvor alvorligt det er. Hvis der opstår afvigelser fra responsplanen, kan det skabe stress og forvirring.
Prioritering
Det første trin i afhjælpning af problemet er at identificere komponenten til den arbejdsbelastning, der er årsag til problemet. De trin, du følger under en prioritering (også kaldet triage), afhænger af problemtypen. Teamet for et bestemt område af arbejdsbyrdestøtte skal oprette procedurer for hændelser, der er relateret til dets arbejde. Sikkerhedsteams skal f.eks. prioritere sikkerhedsproblemer, og de skal følge de scripts, de udvikler. Det er vigtigt, at teams følger veldefinerede scripts, mens de gennemgår deres prioriteringsindsats. Disse scripts skal være trinvise instruktioner, der omfatter tilbageførselsprocesser for at fortryde ændringer, der er ineffektive eller kan forårsage andre problemer. Når problemet er løst, skal du følge veldefinerede processer for på en sikker måde at få den berørte komponent tilbage til arbejdsprocesstierne.
Rapportering af analyse af rodårsag
Hændelsesejeren eller en person, der har arbejdet tæt sammen med vedkommende, skal oprette rapporter om analyse af rodårsag. Denne strategi sikrer en nøjagtig redegørelse for hændelsen. Organisationer har typisk en defineret RCA-skabelon med retningslinjer for, hvordan oplysninger præsenteres, og hvilke typer oplysninger der kan eller ikke kan deles. Hvis du har brug for at oprette din egen skabelon og retningslinjer, skal du sørge for, at interessenterne gennemgår og godkender dem.
Hændelsespostmortems
En uafhængig person bør forestå pletfrie postmortems. I postmortem-sessioner deler alle deres resultater fra en hændelse. Hvert team, der var involveret i hændelsesresponsen, skal repræsenteres af personer, der arbejdede på hændelsen. Disse personer bør komme forberedt til sessionen med eksempler på de aktioner, der var vellykkede, og områder, der kan forbedres. Sessionen er ikke et forum til at placere skylden for hændelsen eller problemer, der kan opstå under responsen. Lederen af postmortem bør forlade sessionen med en klar liste over handlingspunkter, der fokuserer på forbedringer, f.eks.:
- Forbedringer af responsplanen. Det kan være nødvendigt at omskrive processer eller procedurer for at bedre kunne registrere de rette handlinger.
- Forbedringer af overvågningssystemet. Det kan være nødvendigt at ændre tærskelværdierne for at kunne opdage den specifikke type hændelse tidligere, eller der skal implementeres ny overvågning for at gribe ind over for drift, der ikke er taget højde for.
- Forbedringer af arbejdsbelastningen. Hændelsen kan vise en sårbarhed i den arbejdsbelastning, der skal håndteres som en permanent afhjælpning.
Overvejelser
Din nødresponsstrategi skal være tæt justeret i forhold til din overordnede Power Platform-supportstrategi. Samarbejd med dine Power Platform administratorer og Center of Excellence-teamet for at drøfte support- og beredskabsmuligheder og -processer, der måske allerede er defineret.
Når du definerer supportprocessen og eskaleringsstien, er det vigtigt at kategorisere løsninger, der er baseret på kritisk niveau. Denne praksis giver dig mulighed for at etablere processer, der sikrer, at kritiske programmer har de nødvendige retningslinjer til at understøtte dem, uden at det kvæler innovation af produktivitetsscenarier eller overvælder dine hændelsesresponsteams. Når du definerer dine supportmodeller, skal du også overveje en gradueringssti. En løsning kan starte med kun at kræve support på produktivitetsniveau, men funktionaliteten eller brugerbasen kan vokse, så der kræves et højere supportniveau. Definer, hvordan oprettere kan anmode om mere formel support og overføre en løsning til understøttede miljøer.
Power Platform-processtyring
Power Platform integreres med Application Insights, som er en del af Azure Monitor-økosystemet. Brug denne integration til at:
Modtage telemetri på diagnose og ydeevne, der registreres af Dataverse-platformen i Application Insights. Du kan abonnere på telemetri om handlinger, som programmer udfører Dataverse på din database og i modelbaserede apps. Denne telemetri kan bruges til at diagnosticere og foretage fejlfinding af problemer, der vedrører fejl og ydeevne.
Oprette forbindelse mellem dine lærredapps og Application Insights. Du kan bruge disse analyser til at diagnosticere problemer og forstå, hvad brugerne gør med dine apps. Du kan indsamle oplysninger, der kan hjælpe dig med at træffe bedre beslutninger i virksomheden og forbedre kvaliteten af dine apps.
Konfigurer Power Automate telemetri til at flyde ind i Application Insights - f.eks. til at overvåge udførelse af cloud flows og oprette beskeder om fejl under udførelse af cloud flows.
Registrer telemetridata fra din Microsoft Copilot Studio agent til brug i Azure Application Insights. Du kan bruge denne telemetri til at overvåge logførte meddelelser og hændelser, der sendes til og fra din agent, emner, der skal udløses under brugersamtaler, og brugerdefinerede telemetrihændelser, der kan sendes fra dine emner.
Application Insights er en omfattende løsning til indsamling, analyse og respons på overvågning af data fra cloudmiljøer og det lokale miljø. Den indeholder en robust platform til vigtige beskeder, som du kan konfigurere til automatiske meddelelser og andre handlinger.
Power Platform Automatiseringspakken er et sæt værktøjer, der fremmer brugen og understøttelsen af Power Automate til skrivebord til automatiseringsprojekter. Pakken indeholder værktøjer, der kan hjælpe dig med at administrere automatisering af projekter og overvåge dem for at estimere de penge, der gemmes, og ROI (Return On Investment). En del af automatiseringspakken er kontrolcenteret, som supplerer den eksisterende funktion Overvåg kørsler af skrivebordsflow. Hovedfokus i kontrolcenteret er en orkestreringsvisning, som supportanalytikere og organisationer kan overvåge, handle i og være opmærksom på, når det er nødvendigt.
Relaterede oplysninger
- Anbefalinger til design og oprettelse af et overvågningssystem
- Anbefalinger til udvikling af en pålidelig overvågnings- og advarselsstrategi
- Supportstrategi for brugere og oprettere