Anbefalinger til at reagere på problemer med liveoptræden

Artikel
10/16/2024

Gælder for denne Power Platform anbefaling af Well-Architected Performance Efficiency-tjekliste:

Reager på problemer med liveoptræden. Planlæg, hvordan du løser præstationsproblemer ved at inkorporere klare kommunikationslinjer og ansvarsområder. Når en problematisk situation opstår, skal du bruge det, du lærer, til at identificere forebyggende foranstaltninger og indarbejde dem i din arbejdsbyrde. Implementer metoder til hurtigere at vende tilbage til normal drift, når lignende situationer opstår.

I denne vejledning beskrives de bedste fremgangsmåder for at reagere på problemer med liveoptræden. Problemer med live-præstationer refererer til udfordringer og flaskehalse i realtid, der kan forhindre en arbejdsbyrde i at fungere optimalt. Hurtig håndtering af disse problemer letter ikke kun øjeblikkelig registrering og afhjælpning af præstationshikke, men sikrer også, at arbejdsbyrden konsekvent opfylder sine præstationsbenchmarks. Hvis du ikke løser dem, kan det føre til komplikationer, herunder afmatning, nedbrud og manglende reaktion på systemet, og forringe brugeroplevelsen. De kan også forhindre brugere i at udføre deres opgaver effektivt og til gengæld plette organisationens omdømme.

Definitioner

Begreb	Definition
Data-korrelation	Justering af logfiler, målepunkter og hændelser fra forskellige dele af din arbejdsbelastning for at identificere underliggende årsager.
Analyse af rodårsag	En proces til at identificere de underliggende faktorer, der er ansvarlige for et problem.
Selvhelbredende	Evnen til automatisk at reparere problemer uden menneskelig indgriben.
Selvforebyggelse	Implementeringer inden for en arbejdsbelastning for at forhindre potentielle problemer og fejl.

Vigtigste designstrategier

Når du oplever et problem med liveoptræden, skal du være forberedt med de rigtige data og en plan for at reagere på problemet. Denne plan bør indeholde klare kommunikationslinjer og ansvarsområder. Det primære mål er at identificere, om ydeevneproblemerne er midlertidige eller isolerede, at identificere årsagen til ydeevneproblemet og at implementere løsninger, der letter en hurtig tilbagevenden til almindelig drift og giver indsigt fra hændelsen. Integration af forebyggende foranstaltninger i din arbejdsgang er en central strategi. Målet er enten at forhindre det samme problem i at ske igen eller mindske dets indvirkning på ydeevnen, hvis det ikke kan forebygges.

Forbered dig på problemer

Det ideelle svar på problemer med ydeevne på live-webstedet er præcist og hurtigt. Præcision og hastighed i ydeevneafhjælpning kræver forberedelse. For effektivt at reagere på problemer med live-ydeevne er det afgørende at overvåge vigtige præstationsmålinger, identificere årsagen til problemerne og implementere passende løsninger eller optimeringer. Hvis du vil udføre disse trin, skal du muligvis analysere arbejdsbelastningslogge, udføre test af ydeevne og optimere kode eller konfigurationer.

Følgende eksempler skitserer nogle få kritiske forberedelsesområder:

Hav nøjagtige arkitekturdiagrammer. Dine arkitekturdiagrammer skal indeholde alle komponenter og vise, hvordan de interagerer. Visuel repræsentation kan hjælpe med at identificere flaskehalse og enkelte fejlpunkter, der kan føre til forringelse af ydeevnen eller utilgængelighed. Ideelt set fanger og fjerner du disse problemer, før de forårsager problemer, men at have et opdateret diagram kan hjælpe dig med at lokalisere problemer i højstressede øjeblikke.
Tjek dataadgang. Data og logfiler fra overvågningsprocesser er afgørende for at reagere på ydeevneproblemer i realtid og udføre rodårsagsanalyser. Men det er vigtigt at bevare integriteten og fortroligheden af dataene. Reaktion på problemer med ydeevnen på live-webstedet kræver ofte adgang til underliggende data, som måske ikke normalt er tilgængelige. Du skal sikre, at personalet har adgang til de data, de har brug for, når der opstår problemer. Men du bør kun give tidsbegrænset adgang med færrest privilegier, og du bør begrænse denne adgang til autoriseret personale.
Indstil automatiske advarsler. Beskeder kan hjælpe dig med at identificere og løse problemer, så snart de opstår. Beskeder skal generere meddelelser, når ydeevnen for arbejdsbelastninger afviger fra ydeevnens baselines. Over tid bør du justere advarselskonfigurationer for at undgå at generere for mange eller for få meddelelser. De overvågningsløsninger, du bruger, skal indsamle nok data til at generere beskeder. Disse indberetninger bør være i overensstemmelse med præstationsmålene og de fastsatte referencescenarier. Du bør undgå at generere advarsler om problemer, der ikke er relevante for dine mål. Eksempler på beskeder omfatter forringelser i svartider, ydeevnen af Dataverse API-kald eller plug-ins og sideindlæsninger.

Opret en triageplan

Oprettelse af en triageplan indebærer udarbejdelse af en struktureret tilgang til at identificere, eskalere, analysere, prioritere og kommunikere problemer med live-site-ydeevne. En triageplan er en strategi til at reagere på problemer med liveoptræden. Det sikrer, at præstationsforstyrrelser håndteres hurtigt og effektivt med klare roller og procedurer. De fleste problemer med ydeevnen fortjener ikke protokoller til it-katastrofeberedskab, men de kan påvirke arbejdsbelastningsfunktionaliteten nok til at kræve prioriteringsplanlægning. En veldokumenteret triageplan sikrer, at alle teammedlemmer er på linje og kan handle hurtigt, hvilket minimerer indvirkningen på brugere og arbejdsbelastninger. En triageplan bør indeholde følgende komponenter:

Identifikation og overvågning: Implementer et system til at identificere og overvåge ydeevneproblemer i realtid. Du bør have en liste over kontaktoplysninger på personer, der er i stand til at træffe beslutninger eller eskalere problemer til højere niveauer. Planen bør også identificere roller og ansvarsområder. Den skal dokumentere, hvilke konti der får adgang til beskyttede oplysninger og hvor længe.
Eskaleringsproces: Definer en klar eskaleringsproces for at sikre, at præstationsproblemer eskaleres til de relevante teams eller personer rettidigt. Procesdefinitionen bør indeholde kontaktoplysninger og retningslinjer for eskalerende problemer.
Årsagsanalyse: Udvikl en proces til udførelse af en årsagsanalyse for at identificere den underliggende årsag til hvert ydelsesproblem. Processen bør involvere analyse af logfiler og præstationsmålinger og udførelse af diagnostiske tests for at lokalisere kilden til hvert problem.
Prioritering: Opret en prioriteringsramme for at bestemme alvoren af ydeevneproblemer og prioritere dem baseret på deres effekt på arbejdsbelastningen og brugerne.
Kommunikation: Opret en kommunikationsplan for at holde interessenter informeret om status for præstationsproblemer og fremskridt i deres løsning. Overvej regelmæssige opdateringer, statusrapporter og klare kommunikationskanaler.
Dokumentation: Dokumentér triageplanen, herunder alle dens trin, processer og bedste praksis. Denne dokumentation skal være let tilgængelig for de teammedlemmer, der er involveret i at reagere på præstationsproblemer.

Udvikle metoder til at identificere og løse problemer

Løsning af problemer med live-ydeevne involverer at identificere og adressere eventuelle faktorer, der kan forårsage forringelse af ydeevnen eller ineffektivitet i en live-arbejdsbelastning. Data, som du indsamler under overvågning, er uvurderlige til at undersøge og løse ydeevnerelaterede hændelser. Disse data giver en historisk registrering af præstationsmålinger. Når du har overvågningsdata tilgængelige, kan du analysere rodårsager og identificere medvirkende faktorer. Du bør bruge alle relevante overvågningsdata til at forstå og løse hvert enkelt ydelsesproblem. Overvåg, hvor mange forbigående spidser du registrerer, og juster tærsklerne i overensstemmelse hermed.

Brug årsagsanalyse

Årsagsanalyse kræver hypotesetestning. Når du har gennemgået overvågningsdata, skal du angive potentielle årsager til problemet med ydeevnen og teste dem.

Hvis du vil udføre en analyse af rodårsagen til et problem med liveoptræden, skal du følge disse trin:

Indsaml oplysninger. Indsaml så mange oplysninger som muligt om problemet med ydeevnen. Eksempler omfatter fejlmeddelelser, logfiler, præstationsmålinger og andre relevante data. Medtag også oplysninger om de brugere, der har rapporteret problemet, f.eks. deres enhed, netværk og placering.
Definer problemet. Definer klart problemet ved at identificere symptomerne og den effekt, som problemet har på arbejdsbyrden eller brugerne.
Undersøg potentielle årsager. Indsnævr omfanget af analysen ved at identificere den specifikke komponent eller det område af arbejdsbelastningen, hvor ydeevneproblemet opstår. Identificer potentielle årsager til ydeevneproblemet baseret på de indsamlede oplysninger. Denne proces kan involvere analyse af kode, konfigurationsindstillinger, infrastruktur eller eksterne afhængigheder.
Korrelere data. Dyk dybere ned i de indsamlede data for at identificere mønstre, uregelmæssigheder eller korrelationer, der kan bidrage til ydeevneproblemet. Datakorrelation er nøglen til at identificere præstationsproblemer og årsager. Det kan involvere gennemgang af logfiler, analyse af præstationsmålinger og udførelse af tests.
Test hypoteser. Formuler hypoteser baseret på de potentielle årsager, som du identificerer. Udfør tests for at validere eller tilbagevise dine hypoteser. Du skal bruge et testmiljø til at se, om du kan replikere fejlen.
Implementer løsninger. Når du har identificeret en grundlæggende årsag, skal du udvikle og implementere løsninger til at løse problemet med ydeevnen.
Overvåg og valider. Når du har implementeret løsningerne, skal du løbende overvåge arbejdsbelastningen for at sikre, at problemet med ydeevnen er løst. Valider løsningernes effektivitet ved at overvåge ydeevnemålinger og brugerfeedback.

Afvejning: Trinene i en årsagsanalyse, såsom at identificere mulige årsager, teste hypoteser og dokumentere analysen, kan være tidskrævende. For at korrelere problemer med ydeevnen skal du også indsamle og gemme data. Den nødvendige tid og infrastruktur kan tilføje betydeligt arbejde til driftsteamene og omkostninger til arbejdsbyrden.

Risiko: Hvis du udfører en årsagsanalyse uden ordentlige sikkerhedsforanstaltninger, er der en risiko for, at du eksponerer følsomme oplysninger, når du giver adgang til logge og data.

Engager Microsoft support

Kontakt Microsoft support for at få hjælp til at løse igangværende problemer med ydeevnen. Microsoft Supportrepræsentanter har ikke kun ekspertisen, værktøjerne, ressourcerne og erfaringen til at løse problemer, men de kan også være opmærksomme på eventuelle aktuelle globale problemer med ydeevnen eller afbrydelser, der kan påvirke din arbejdsbyrde. Din supportaftale bestemmer niveauet af support.

Det er ofte bedst at arbejde parallelt med Microsoft Support. Overvej f.eks. en strategi, hvor nogle teammedlemmer samarbejder med Microsoft support, mens andre fortsætter med at prioritere og løse problemer med ydeevnen.

Det er vigtigt at gøre supportkontaktoplysninger tilgængelige for teamet. Husk, at Microsoft support også kan have brug for adgang til data for effektivt at kunne deltage i problemløsning.

Du kan finde flere oplysninger under Få hjælp + support i Power Platform.

Lær af resultaterne

Når du har løst et problem med effektiviteten på et livewebsite, skal du gennemgå, hvad der er sket. Målet er at lære af præstationsproblemer, ikke kun identificere problemer. Den bedste måde at lære på er gennem dokumentation. Dokumenter hvert problem, og forklar, hvordan du løser det. Hvis en leverandør hjalp, skal du samarbejde med leverandøren om at forbedre din dokumentation, træne dit team og ændre din arbejdsbyrde i overensstemmelse hermed.

Dokumentationen skal angive, hvordan man forhindrer, at hvert problem opstår igen. Sammen med dokumentationen kan du oprette detaljerede beskeder, der hjælper dig med at reagere tidligt på indikatorer for ydeevneproblemer.

Power Platform-processtyring

Power Platform og Azure indeholder flere værktøjer, der kan hjælpe dig med at reagere på problemer med live-ydeevne:

Azure Monitor er en omfattende overvågningsløsning, der giver indsigt i ydeevnen og tilstanden af dine programmer og din infrastruktur. Azure Monitor tilbyder funktioner som målepunkter, logfiler, beskeder og dashboards, der kan hjælpe dig med at overvåge og diagnosticere problemer med ydeevnen. Power Platform apps og automatisering kan integreres med Azure Monitor ved hjælp af funktionen Application Insights . Standardtelemetri sammen med brugerdefinerede sporingshændelser kan logføres og analyseres.
Application Insights er en APM-tjeneste (Application Performance Management), der hjælper udviklere og DevOps-fagfolk med at overvåge live-applikationer. Den registrerer automatisk uregelmæssigheder i ydeevnen, indsamler logfiler og hændelser på programniveau og leverer analyseværktøjer til at diagnosticere problemer. Power Platform integreres med Application Insights.
Log Analytics er en tjeneste, der indsamler og analyserer logdata fra forskellige kilder, herunder programmer, virtuelle maskiner og Azure-ressourcer. Når du bruger Log Analytics, kan du forespørge på og analysere logdata for at få indsigt i ydeevnen og funktionsmåden for dine programmer. Overvej at bruge Log Analytics, hvis din arbejdsbelastning bruger Azure-ressourcer.
Løsningskontrol udfører omfattende statisk analyse af dine løsninger i forhold til et sæt regler for bedste praksis og identificerer problematiske mønstre. Løs eventuelle problemer med ydeevnen, før du installerer løsningen til produktion for at undgå problemer med ydeevnen på live-webstedet.

Kontrolliste til ydeevneeffektivitet

Se det fuldstændige sæt anbefalinger.

Tjekliste for ydeevneeffektivitet

Del via