Anbefalinger for å svare på problemer med liveopptredener

Artikkel
10/16/2024

Gjelder denne Power Platform anbefalingen for Well-Architected Performance Efficiency-sjekkliste:

PE:09	Svar på problemer med live-opptredener. Planlegg hvordan du skal løse ytelsesproblemer ved å innlemme klare kommunikasjonslinjer og ansvar. Når en problematisk situasjon oppstår, bruk det du lærer til å identifisere forebyggende tiltak og innlemme dem i arbeidsmengden. Implementere metoder for å gå raskere tilbake til normal drift når lignende situasjoner oppstår.

Denne hjelpelinjen beskriver de beste fremgangsmåtene for å svare på problemer med live-opptredener. Problemer med live-ytelse refererer til sanntidsutfordringer og flaskehalser som kan hindre optimal funksjon av en arbeidsmengde. Å løse disse problemene raskt letter ikke bare umiddelbar oppdagelse og utbedring av ytelseshikke, men sikrer også at arbeidsbelastningen konsekvent oppfyller ytelsesstandardene. Unnlatelse av å løse dem kan føre til komplikasjoner, inkludert forsinkelser, krasj og manglende respons, og forringe brukeropplevelsen. De kan også hindre brukere i å fullføre oppgavene sine effektivt, og i sin tur svekke omdømmet til organisasjonen.

Definisjoner

Term	Definisjon
Data korrelasjon	Justere logger, måledata og hendelser fra ulike deler av arbeidsbelastningen for å finne underliggende årsaker.
Årsaksanalyse	En prosess for å identifisere de underliggende faktorene som er ansvarlige for et problem.
Selvhelbredelse	Evnen til automatisk å reparere problemer uten menneskelig innblanding.
Selvforebygging	Implementeringer i en arbeidsbelastning for å forhindre potensielle problemer og feil.

Viktige utformingsstrategier

Når du opplever et problem med live-ytelse, må du være forberedt med de riktige dataene og en plan for å svare på problemet. Denne planen bør inneholde klare kommunikasjonslinjer og ansvar. Hovedmålet er å identifisere om ytelsesproblemene er midlertidige eller isolerte, å identifisere årsaken til ytelsesproblemet, og å implementere løsninger som legger til rette for en rask retur til vanlig drift og gir innsikt fra hendelsen. Å integrere forebyggende tiltak i arbeidsflyten din er en sentral strategi. Målet er enten å forhindre at det samme problemet skjer igjen eller redusere effekten på ytelsen hvis det ikke kan forebygges.

Forbered deg på problemer

Det ideelle svaret på ytelsesproblemer på live-nettstedet er presist og raskt. Presisjon og hastighet i ytelsesutbedring krever forberedelse. For å reagere effektivt på problemer med live-ytelse, er det avgjørende å overvåke viktige ytelsesmålinger, identifisere årsaken til problemene og implementere passende løsninger eller optimaliseringer. Hvis du vil utføre disse trinnene, må du kanskje analysere arbeidsbelastningslogger, utføre ytelsestesting og optimalisere kode eller konfigurasjoner.

Følgende eksempler skisserer noen kritiske forberedelsesområder:

Ha nøyaktige arkitekturdiagrammer. Arkitekturdiagrammene dine bør inneholde alle komponentene og vise hvordan de samhandler. Visuell representasjon kan bidra til å identifisere flaskehalser og enkeltfeilpunkter som kan føre til ytelsesforringelse eller utilgjengelighet. Ideelt sett fanger du opp og fjerner disse problemene før de forårsaker problemer, men å ha et oppdatert diagram kan hjelpe deg med å finne problemer i øyeblikk med mye stress.
Sjekk datatilgang. Data og logger fra overvåkingsprosesser er avgjørende for å svare på ytelsesproblemer i sanntid og utføre rotårsaksanalyser. Men det er viktig å opprettholde integriteten og konfidensialiteten til dataene. Å svare på ytelsesproblemer på live-nettstedet krever ofte tilgang til underliggende data som kanskje ikke er normalt tilgjengelige. Du må sørge for at personell har tilgang til dataene de trenger når det oppstår problemer. Men du bør bare gi tidsbegrenset tilgang med minst privilegium, og du bør begrense denne tilgangen til autorisert personell.
Angi automatiske varsler. Varsler kan hjelpe deg med å identifisere og løse problemer så snart de oppstår. Varsler skal generere varsler når arbeidsbelastningsytelsen avviker fra ytelsesgrunnlinjene. Over tid bør du justere varslingskonfigurasjoner for å unngå å generere for mange eller for få varsler. Overvåkingsløsningene du bruker, må samle inn nok data til å generere varsler. Disse varslene bør justere med ytelsesmål og etablerte grunnlinjer. Du bør unngå å generere varsler om problemer som ikke er relevante for målene dine. Eksempler på varsler inkluderer forringelser i svartider, ytelse for Dataverse API-kall eller plugin-moduler og sideinnlastinger.

Opprette en triageplan

Å lage en triageplan innebærer å utarbeide en strukturert tilnærming for å identifisere, eskalere, analysere, prioritere og kommunisere ytelsesproblemer på live-nettstedet. En triageplan er en strategi for å svare på problemer med liveopptredener. Det sikrer at ytelsesforstyrrelser håndteres raskt og effektivt, med klare roller og prosedyrer. De fleste ytelsesproblemer fortjener ikke nødgjenopprettingsprotokoller, men de kan påvirke arbeidsbelastningsfunksjonaliteten nok til å kreve prioriteringsplanlegging. En veldokumentert triageplan sikrer at alle teammedlemmer er på linje og kan handle raskt, noe som minimerer innvirkningen på brukere og arbeidsbelastninger. En triageplan bør inneholde følgende komponenter:

Identifikasjon og overvåking: Implementer et system for å identifisere og overvåke ytelsesproblemer i sanntid. Du bør ha en liste over kontaktinformasjonen til personer som er i stand til å ta beslutninger eller eskalere problemer til høyere nivåer. Planen bør også identifisere roller og ansvar. Den må dokumentere hvilke kontoer som får tilgang til beskyttet informasjon og hvor lenge.
Eskaleringsprosess: Definer en klar eskaleringsprosess for å sikre at ytelsesproblemer eskaleres til de aktuelle teamene eller personene i tide. Prosessdefinisjonen bør inneholde kontaktinformasjon og retningslinjer for eskalerende problemer.
Rotårsaksanalyse: Utvikle en prosess for å utføre en rotårsaksanalyse for å identifisere den underliggende årsaken til hvert ytelsesproblem. Prosessen bør innebære å analysere logger og ytelsesmålinger og utføre diagnostiske tester for å finne kilden til hvert problem.
Prioritering: Etabler et prioriteringsrammeverk for å bestemme alvorlighetsgraden av ytelsesproblemer og prioritere dem basert på deres effekt på arbeidsbelastningen og brukerne.
Kommunikasjon: Lag en kommunikasjonsplan for å holde interessenter informert om statusen til ytelsesproblemer og fremdriften i løsningen. Vurder regelmessige oppdateringer, statusrapporter og tydelige kommunikasjonskanaler.
Dokumentasjon: Dokumenter triageplanen, inkludert alle trinn, prosesser og anbefalte fremgangsmåter. Denne dokumentasjonen skal være lett tilgjengelig for teammedlemmene som er involvert i å svare på ytelsesproblemer.

Utvikle metoder for å identifisere og løse problemer

Å løse problemer med live-ytelse innebærer å identifisere og adressere eventuelle faktorer som kan forårsake ytelsesforringelse eller ineffektivitet i en live arbeidsbelastning. Data som du samler inn under overvåking, er uvurderlige for å undersøke og løse ytelsesrelaterte hendelser. Disse dataene gir en historisk oversikt over ytelsesmålinger. Når du har overvåkingsdata tilgjengelig, kan du analysere rotårsaker og identifisere medvirkende faktorer. Du bør bruke alle relevante overvåkingsdata for å forstå og fikse hvert ytelsesproblem. Overvåk hvor mange forbigående topper du oppdager, og juster tersklene deretter.

Bruk rotårsaksanalyse

Rotårsaksanalyse krever hypotesetesting. Når du har gjennomgått overvåkingsdata, bør du liste opp potensielle årsaker til ytelsesproblemet og teste dem.

Hvis du vil utføre en rotårsaksanalyse på et problem med live-ytelse, gjør du følgende:

Samle informasjon. Samle inn så mye informasjon som mulig om ytelsesproblemet. Eksempler inkluderer feilmeldinger, logger, ytelsesmålinger og andre relevante data. Inkluder også informasjon om brukerne som rapporterte problemet, for eksempel enhet, nettverk og plassering.
Definer problemet. Definer problemet tydelig ved å identifisere symptomene og effekten som problemet har på arbeidsmengden eller brukerne.
Undersøk potensielle årsaker. Begrens omfanget av analysen ved å identifisere den spesifikke komponenten eller området i arbeidsbelastningen der ytelsesproblemet oppstår. Identifiser potensielle årsaker til ytelsesproblemet basert på den innsamlede informasjonen. Denne prosessen kan involvere analyse av kode, konfigurasjonsinnstillinger, infrastruktur eller eksterne avhengigheter.
Korrelere data. Dykk dypere inn i de innsamlede dataene for å identifisere mønstre, avvik eller korrelasjoner som kan bidra til ytelsesproblemet. Datakorrelasjon er nøkkelen til å identifisere ytelsesproblemer og årsaker. Det kan innebære gjennomgang av logger, analyse av ytelsesmålinger og gjennomføring av tester.
Test hypoteser. Formuler hypoteser basert på de potensielle årsakene du identifiserer. Gjennomfør tester for å validere eller tilbakevise hypotesene dine. Du bør bruke et testmiljø for å se om du kan replikere feilen.
Implementere løsninger. Når du har identifisert en rotårsak, utvikler og implementerer du løsninger for å løse ytelsesproblemet.
Overvåk og valider. Når du har implementert løsningene, må du kontinuerlig overvåke arbeidsbelastningen for å sikre at ytelsesproblemet er løst. Valider effektiviteten til løsningene ved å overvåke ytelsesmåledata og tilbakemeldinger fra brukere.

Avveining: Trinnene i en rotårsaksanalyse, som å identifisere mulige årsaker, teste hypoteser og dokumentere analysen, kan være tidkrevende. For å korrelere ytelsesproblemer må du også samle inn og lagre data. Den nødvendige tiden og infrastrukturen kan legge til betydelig arbeid for driftsteamene og koste arbeidsmengden.

Risiko: Hvis du utfører en rotårsaksanalyse uten skikkelige sikkerhetsrekkverk, Der er en risiko for at du eksponerer sensitiv informasjon når du gir tilgang til logger og data.

Engasjer Microsoft kundestøtte

Kontakt Microsoft kundestøtte for å hjelpe deg med å løse pågående ytelsesproblemer. Microsoft Støtterepresentanter har ikke bare ekspertisen, verktøyene, ressursene og erfaringen til å løse problemer, men de kan også være klar over eventuelle aktuelle globale ytelsesproblemer eller avbrudd som kan påvirke arbeidsmengden din. Støtteavtalen din bestemmer nivået på støtten som tilbys.

Det er ofte best å arbeide parallelt med Microsoft kundestøtte. Tenk deg for eksempel en strategi der noen teammedlemmer samarbeider med Microsoft kundestøtte, mens andre fortsetter å prioritere og løse ytelsesproblemer.

Det er viktig å gjøre kontaktinformasjon for kundestøtte tilgjengelig for teamet. Husk at Microsoft kundestøtte også kan trenge tilgang til data for å kunne løse problemer på en effektiv måte.

Hvis du vil ha mer informasjon, kan du se Få hjelp + støtte i Power Platform.

Lær av funn

Når du har løst et ytelsesproblem på det publiserte nettstedet, må du gå gjennom hva som har skjedd. Målet er å lære av ytelsesproblemer, ikke bare identifisere problemer. Den beste måten å lære på er gjennom dokumentasjon. Dokumenter hvert problem og forklar hvordan du løser det. Hvis en leverandør hjalp, kan du samarbeide med leverandøren for å forbedre dokumentasjonen, lære opp teamet ditt og endre arbeidsmengden deretter.

Dokumentasjonen skal indikere hvordan du kan forhindre at hvert problem oppstår igjen. Sammen med dokumentasjonen kan du opprette raffinerte varsler som hjelper deg med å svare tidlig på ytelsesproblemindikatorer.

Tilrettelegging for Power Platform

Power Platform og Azure tilbyr flere verktøy for å hjelpe deg med å svare på problemer med live-ytelse:

Azure Monitor er en omfattende overvåkingsløsning som gir innsikt i ytelsen og tilstanden til programmene og infrastrukturen din. Azure Monitor tilbyr funksjoner som måledata, logger, varsler og instrumentbord for å hjelpe deg med å overvåke og diagnostisere ytelsesproblemer. Power Platform apper og automatisering kan integreres med Azure Monitor ved hjelp av Application Insights funksjonen. Standard telemetri sammen med egendefinerte sporingshendelser kan logges og analyseres.
Application Insights er en APM-tjeneste (Application Performance Management) som hjelper utviklere og DevOps-fagfolk med å overvåke live-applikasjoner. Den oppdager automatisk ytelsesavvik, samler inn logger og hendelser på programnivå og gir analyseverktøy for å diagnostisere problemer. Power Platform integreres med Application Insights.
Log Analytics er en tjeneste som samler inn og analyserer loggdata fra ulike kilder, inkludert programmer, virtuelle maskiner og Azure-ressurser. Når du bruker Log Analytics, kan du spørre og analysere loggdata for å få innsikt i ytelsen og virkemåten til programmene dine. Vurder å bruke Log Analytics hvis arbeidsbelastningen bruker Azure-ressurser.
Løsningskontroll utfører omfattende statisk analyse av løsningene dine mot et sett med regler for anbefalte fremgangsmåter og identifiserer problematiske mønstre. Løs eventuelle ytelsesrelaterte problemer før du distribuerer løsningen til produksjon for å unngå ytelsesproblemer på live-området.

Sjekkliste for ytelseseffektivitet

Se hele settet med anbefalinger.

Sjekkliste for ytelseseffektivitet

Del via

Anbefalinger for å svare på problemer med liveopptredener

Viktige utformingsstrategier

Forbered deg på problemer

Opprette en triageplan

Utvikle metoder for å identifisere og løse problemer

Bruk rotårsaksanalyse

Engasjer Microsoft kundestøtte

Lær av funn

Tilrettelegging for Power Platform

Sjekkliste for ytelseseffektivitet

Tilbakemeldinger

Flere ressurser