Del via


Anbefalinger for utforming av en strategi for beredskapssvar

Gjelder denne Power Platform Well-Architected Framework Operational Excellence-sjekklisteanbefalingen:

OE:07 Utvikle en effektiv praksis for nødoperasjoner. Sørg for at arbeidsbelastningen sender ut meningsfulle tilstandssignaler. Samle inn de resulterende dataene og bruk dem til å generere handlingsbare varsler som iverksetter nødsvar gjennom instrumentbord og spørringer. Definer klart menneskelig ansvar, for eksempel vaktroteringer, hendelsesadministrasjon, tilgang til nødressurser og kjøring av rapporter etter hendelser.

Denne veiledningen beskriver anbefalingene for utforming av en strategi for beredskapssvar. Noen av arbeidsbelastningene dine kan være driftskritiske, og problemer som oppstår i løpet av arbeidsbelastningens livssyklus, kan være alvorlige nok til å rettferdiggjøre å erklære dem nødsituasjoner. Du kan implementere kontrollerte og fokuserte prosesser og prosedyrer som teamet kan følge for å sikre at et problem håndteres på en rolig og ryddig måte. Nødsituasjoner øker naturligvis alles stressnivåer og kan føre til et kaotisk miljø hvis teamet ikke er godt forberedt. For å bidra til å redusere stress og forvirring kan du utforme en beredskapsstrategi, dele beredskapsstrategien med organisasjonen og utføre regelmessig opplæring i beredskap.

Viktige utformingsstrategier

En strategi for beredskapssvar bør være et godt definert sett med prosesser og prosedyrer. Hver prosess og prosedyre bør ha skript for å sikre at hvert trinn fører teamet ditt raskt og sikkert mot løsning av et problem. Vurder følgende oversikt for å utvikle en strategi for beredskapssvar:

  • Forutsetninger
    • Utvikle et overvåkingssystem
    • Opprett en beredskapsplan for hendelser
  • Hendelsesfaser
    • Deteksjon og begrensning
    • Sortering
  • Faser etter hendelser
    • Årsaksanalyse
    • Konklusjon
  • Pågående aktivitet
    • Beredskapsøvelser

Delene nedenfor inneholder anbefalinger for hver av disse fasene.

Overvåkingssystem

For å ha en robust beredskapsstrategi må du ha et robust overvåkingssystem, eller observerbarhetsplattform, på plass. Din observerbarhetsplattform må ha følgende egenskaper:

  • Helhetlig overvåkning: Sørg for at du overvåker arbeidsbelastningen grundig fra et konfigurasjons- og programperspektiv, og inkluder overvåking av infrastruktur hvis komponentene i arbeidsbelastningen din driftes i skyen eller lokal. Sørg for at alle komponentene i arbeidsbelastningen dekkes av overvåkingsstrategien. Hvis arbeidsbelastningen for eksempel samhandler med Azure-ressurser eller et lokalt system, inkluderer du disse komponentene i overvåkingen.

  • Detaljert logging: Aktiver detaljert logging for komponentene for å gjøre undersøkelser når du undersøker problemer. Strukturer logger slik at de er enkle å administrere. Send logger til datamottakere automatisk for å klargjøres for analyse.

  • Nyttige instrumentbord: Opprett instrumentbord basert på helsemodellen din som er skreddersydd for hvert team i hele organisasjonen. Ulike team er ansvarlige for ulike aspekter ved arbeidsbelastningstilstand.

  • Handlingsbare varsler: Opprett varsler som er nyttige for arbeidsbelastningsteamene. Unngå varsler som ikke krever handling fra teamene dine. For mange varsler av denne typen kan føre til at personer ignorerer eller blokkerer varselvarsler.

  • Automatiske varsler: Sørg for at aktuelle team automatisk mottar varsler som krever handling fra dem. Kundestøtteteamet på nivå 1 skal for eksempel bli varslet for alle varsler, mens sikkerhetsingeniørene dine bare skal få varsler om sikkerhetshendelser.

Finn ut mer i Anbefalinger for utforming og oppretting av et overvåkingsrammeverk.

Hendelsessvarplan

Fundamentet for en strategi for beredskapssvar er en svarplan for hendelser. Som med en nødgjenopprettingsplan, definer klart og grundig roller, ansvar og prosedyrer for å svare på en hendelse. Planen bør være et versjonskontrollert dokument som er underlagt regelmessige gjennomganger som sikrer at den er oppdatert.

Definer tydelig følgende komponenter i planen.

Roller

Identifiser en hendelsessvaradministrator. Denne personen eier hendelsen fra innvielse til ny utbedring til årsaksanalysen. En hendelseshåndteringsleder sørger for at prosesser følges og at de aktuelle partene blir informert når responsteamet utfører sitt arbeid.

Identifiser en konklusjonsleder. Denne personen sørger for at konklusjoner utføres kort tid etter at hendelsen er løst. De lager en rapport som hjelper deg med å ta i bruk funnene som kommer ut av hendelsen.

Prosesser og prosedyrer

Arbeidsbelastningsteamet bør definere og forstå beredskapskriteriene Når teamet ditt mener at en sak er alvorlig, kan du erklære en nødsituasjon og iverksette en nødgjenopprettingsplan. I mindre alvorlige tilfeller kan problemet ikke oppfylle kriteriene for en katastrofe, men du bør likevel vurdere problemet som en nødsituasjon, noe som krever at du starter beredskapsplanen. Nødhjelp kan være internt i arbeidsbelastningen, f.eks. feil i programkoden, eller et resultat av et problem med en avhengighet av arbeidsbelastningen, f.eks. utilgjengelighet for en API eller en database. En påstand kan også skyldes avbrudd for leverandøren (f.eks. et problem med Microsoft Entra ID eller Power Platform). Kundestøtte må kunne avgjøre om et problem oppfyller nødkriteriene, selv om teamet ikke har innsyn i det underliggende problemet.

Definer kommunikasjon og eskaleringsplaner nøyaktig. Basert på typen varsel de mottar, må du sørge for at medlemmene i førstelinjestøtte enkelt kan kontakte de riktige teamene for eskaleringsproblemer.

Andre elementer som skal inkluderes

Dokumenter alle standardverktøy som brukes under hendelser for intern kommunikasjon, som Microsoft Teams og for å spore aktivitetene i løpet av hendelsen, som billettverktøy eller planleggingsverktøy for etterslep.

Dokumenter nødlegitimasjonen din, ellers kjent som bruddkontoer. Inkluder en trinnvis veiledning som beskriver hvordan de bør brukes.

Opprett instruksjoner for beredskapsøvelser, og hold oversikt over når øvelser utføres.

Dokumenter eventuelle juridiske eller forskriftsmessige tiltak som er nødvendige, for eksempel kommunikasjon av databrudd.

Hendelsesdeteksjon og begrensning

Når du har et godt utformet overvåkingssystem som overvåker for uregelmessigheter og automatisk varsler om dem, kan du raskt oppdage problemer og fastslå hvor viktig dette er. Hvis problemet anses som en nødsituasjon, kan planen iverksettes. I noen tilfeller blir kundestøtte ikke varslet gjennom overvåkingssystemet. Brukere kan rapportere problemer som kan støttes ved hjelp av kommunikasjonstjenester for kundestøtteteamet. Eller de kan kontakte personer som de regelmessig arbeider med eller som de vet arbeider med Power Platform, for eksempel Power Platform-tjenesteadministratorer eller Center of Excellence-teamet. Uansett hvordan kundestøtteteamet blir varslet, bør de alltid følge de samme trinnene for å validere problemet og fastslå hvor vanskelig det er. Avvik fra svarplanen kan legge til stress og forvirring.

Vurder

Det første trinnet i ny utbedringen er å identifisere komponenten i arbeidsbelastningen som forårsaker problemet. Trinnene du følger under vurderingen, avhenger av typen problem. Teamet for et bestemt område med arbeidsbelastningsstøtte bør opprette prosedyrer for hendelser som er relatert til arbeidet. Sikkerhetsteam bør for eksempel vurdere sikkerhetsproblemer, og de bør følge skripter som de utvikler. Det er viktig at team følger veldefinerte skripter når de arbeider seg gjennom opparbeidingsarbeidet. Disse skriptene bør være trinnvise instruksjoner som inkluderer tilbakerullingsprosesser for å angre endringer som er ineffektive eller kan forårsake andre problemer. Når problemet er løst, følger du godt definerte prosesser for å bringe den berørte komponenten tilbake i arbeidsflytflytbanene.

Rapportering for årsaksanalyse

Hendelseseieren eller noen som har samarbeidet tett med vedkommende, bør opprette årsaksanalyserapporter (RCA). Denne strategien sikrer nøyaktig en nøyaktig gjenfortelling av hendelsen. Organisasjoner har vanligvis en definert mal for årsaksanalyse med retningslinjer for hvordan informasjon presenteres og hvilken type informasjon som kan eller ikke kan deles med andre. Hvis du trenger å opprette din egen mal og retningslinjer, må du sørge for at interessenter gjennomgår og godkjenner dem.

Hendelseskonklusjoner

En upartisk person bør føre til upartiske konklusjoner. I konklusjonsøkter deler alle funnene sine fra en hendelse. Hvert team som var involvert i hendelsesresponsen, skal være representert av personer som jobbet med hendelsen. Disse personene skal komme til møtet forberedt med eksempler på de tiltakene som var vellykkede og områder som kan forbedres. Økten er ikke et forum for å tildele skyld for hendelsen eller problemer som kan dukke opp under responsen. Konklusjonslederen bør la økten ha en klar liste over handlingselementer som fokuserer på forbedring, for eksempel:

  • Forbedringer til svarplanen. Det kan hende at prosesser eller prosedyrer må evalueres på nytt og skrives på nytt for bedre å registrere nødvendige handlinger.
  • Forbedringer til overvåkingssystemet. Det kan hende at tersklene må vurderes på nytt for å registrere den bestemte typen hendelse tidligere, eller ny overvåking må kanskje implementeres for å registrere virkemåte som ikke ble gjort rede for.
  • Forbedringer i arbeidsbelastningen. Hendelsen kan avsløre en svakhet i arbeidsbelastningen som må håndteres som en permanent utbedring.

Vurderinger

Strategien for beredskapssvar bør være nært tilpasset den samlede Power Platform-kundestøttestrategien. Samarbeid med Power Platform-administratorene og Center of Excellence-teamet for å diskutere støtte- og beredskapsalternativer og -prosesser som kanskje allerede er definert.

Når du definerer kundestøtteprosessen og eskaleringsbanen, der det viktig å kategorisere løsninger som er bygd basert på viktighet. Denne praksisen gjør det mulig å etablere prosesser som sikrer at kritiske programmer har de nødvendige beskyttelsesrekkverkene for å støtte dem, samtidig som det ikke kveler innovasjon av produktivitetsscenarioer eller overvelder hendelsesresponsteamene. Mens du definerer støttemodellene, bør du også tenke på en avslutningsvei. En løsning kan starte med bare å kreve støtte på produktivitetsnivå, men vokse i funksjonalitet eller brukerbase for å kreve et høyere støttenivå. Definer hvordan utviklere kan be om mer formell støtte og overføre en løsning til støttede miljøer.

Tilrettelegging for Power Platform

Power Platform integreres med Application Insights, som er en del av Azure Monitor-økosystemet. Bruk denne integreringen til å gjøre følgende:

  • Motta telemetri om diagnostisering og ytelse som registreres av Dataverse-plattformen i Application Insights. Du kan abonnere for å motta telemetri om operasjoner som programmer utfører i Dataverse-databasen og i modelldrevne apper. Denne telemetrien inneholder informasjon som du kan bruke til å diagnostisere og feilsøke problemer relatert til feil og ytelse.

  • Koble lerretsappene til Application Insights. Du kan bruke disse analysene til å diagnostisere problemer og forstå hva brukerne gjør med appene dine. Du kan samle inn informasjon som hjelper deg med å ta bedre forretningsavgjørelser og forbedre kvaliteten på appene dine.

  • Konfigurer Power Automate-telemetri til å flyte inn i Application Insights, for eksempel for å overvåke kjøring av skyflyt og opprette varsler for feil ved skyflytkjøring.

  • Registrer telemetridata fra Microsoft Copilot Studio-agent for bruk i Azure Application Insights. Du kan bruke denne telemetrien til å overvåke loggede meldinger og hendelser som sendes til og fra agent, emner som skal utløses under brukersamtaler, og egendefinerte telemetrihendelser som kan sendes fra emnene.

Application Insights er en omfattende løsning for innsamling, analyse og svar på overvåking av data fra skymiljøer og lokal miljøer. Den inneholder en kraftig varselplattform som du kan konfigurere for automatisk varsling og andre handlinger.

Power Platform-automatiseringspakken er et sett med verktøy som akselererer bruken og støtten for Power Automate for skrivebord for automatiseringsprosjekter. Pakken inneholder verktøy som hjelper deg med å administrere automatiseringsprosjekter og overvåke dem for å beregne penger spart og avkastning. En del av automatiseringssettet er kontrollsenteret, som utfyller den eksisterende funksjonen Overvåk skrivebordsflytkjøringer. Hovedfokuset for kontrollsenteret er en iverksettingsvisning der analytikere og organisasjoner kan overvåke, iverksette tiltak og varsle når det er nødvendig.

Neste trinn