Anbefalinger til udvikling af en pålidelig overvågnings- og advarselsstrategi

Artikel
01/15/2025

Gælder for denne anbefaling af kontrolliste til velstruktureret pålidelighed i Power Platform:

RE:08	Mål og publicer løsningens tilstandsindikatorer. Du kan kontinuerligt registrere oppetid og andre pålidelighedsdata fra hele arbejdsbelastningen og fra individuelle komponenter og nøgleforløb.

Denne vejledning beskriver anbefalinger til design og pålidelig overvågning og advarselsstrategi. Implementer denne strategi for at holde driftsteamene underrettet om miljøets tilstandsstatus og sikre, at du overholder de opstillede stabilitetsmål for arbejdsbelastningen.

Definitioner

Begreb	Definition
Målepunkter	Numeriske værdier, der indsamles med regelmæssige intervaller. Metrikværdier beskriver nogle aspekter af et system på et bestemt tidspunkt.
Ressourcelogge	Data, som et system opretter om systemets tilstand.
Sporinger	Data, der indeholder oplysninger om den sti, en forespørgsel kører gennem tjenester og komponenter.

Vigtigste designstrategier

Inden du opretter en overvågnings- og advarselsstrategi, skal du udføre følgende opgaver for arbejdsbelastningen som en del af planlægningen af stabilitet:

Identificer kritiske og ikke-kritiske flows.
Udfør analyse af fejltilstand (FMA) for dine flows.
Identificer stabilitetsmål.
Design en robust teststrategi.

Opret en overvågnings- og advarselsstrategi, der giver driftsteamene opmærksomhed, så de får besked om ændringer i arbejdsbelastningens tilstand, og de kan hurtigt løse problemer. Tilstandsmodellen for vigtige strømme og for arbejdsbelastninger, der omfatter vigtige strømme, skal definere sunde, nedbrudte og uskadelige tilstande. Design overvågningsstillingen, så du straks kan se ændringer i disse tilstande. Når tilstandstilstandene ændres fra sundt til forringet eller uskadelig, skal advarselsmekanismer udløse foranstaltninger til automatisk gendannelse og advarsler til de ansvarlige team.

Implementer følgende anbefalinger for at designe en overvågnings- og advarselsstrategi, der opfylder behovet i virksomheden.

Generel vejledning

Om forskellen mellem metrikværdier, logge og spor.

Aktiver logføring for alle skyressourcer. Brug automatisering i dine installationer til at aktivere diagnosticeringslogføring i hele miljøet.

Videresend alle diagnosticeringslogfiler til en central data sink og analyseplatform, f.eks. et arbejdsområde til loganalyser. Hvis du har krav til områdedata, skal du bruge lokale data sinks i de områder, der er underlagt disse krav.

Tradeoff: Der er omkostningsimplikationer til opbevaring af og forespørge logge. Bemærk, hvordan loganalysen og bevarelsen har indflydelse på dit budget, og find den bedste balance i brugen, så den opfylder dine behov.

Hvis arbejdsbelastningerne er underlagt en eller flere regler for overholdelse, er nogle af de komponentlogfiler, der håndterer følsomme oplysninger, også underlagt disse rammer. Send de relevante komponentlogfiler til et sikkerhedsoplysninger og et arrangementsstyring (SIEM)-system, f.eks. Microsoft Sentinel.

Opret en politik til opbevaring af logfiler, der indarbejder krav om bevarelse på lang tid, som overensstemmelsesreglerne pålægger din arbejdsbelastning.

Brug struktureret logføring for alle logmeddelelser for at optimere forespørgsler om logdataene.

Konfigurer vigtige beskeder til at udløse, når værdier tærskelværdier, der svarer til en tilstand i en tilstandsmodel, ændres, f.eks. grøn til gul eller rød. Konfiguration af tærskelværdier er en praksis med løbende forbedringer. Efterhånden som arbejdsbelastningen udvikler sig, kan de tærskelværdier, du definerer, blive ændret.

Overvej at bruge vigtige beskeder, når tilstande bliver bedre, f.eks. rød til gul eller rød til grøn, så driftsteamene kan spore hændelserne på et senere tidspunkt.

Visualiser miljøets tilstand i realtid ved hjælp af brugerdefinerede dashboards.

Brug data, der er indsamlet under hændelser, til hele tiden at forbedre dine tilstandsmodeller.

Indarbejde overvågning og advarsler på skyplatformen, herunder tilstand på platformniveau.

Indarbejde formålsbaserede avancerede overvågning og analyser, som din cloududbyder tilbyder, f.eks. Azure Monitor -indsigtsværktøjer.

Implementer overvågning af sikkerhedskopiering og gendannelse for at hente:

Status for datareplikering for at sikre, at arbejdsbelastningen opnår gendannelse inden for målet for målet for gendannelsespunktet.
Vellykkede og mislykkede sikkerhedskopieringer og gendannelser.
Varigheden af gendannelsen for at informere din planlægning af it-katastrofeberedskab.

Overvåg programmer og agenter

Logføre data, mens programmet eller agenten kører i produktionsmiljøet. Du skal bruge tilstrækkelige oplysninger til at diagnosticere årsagen til problemer i produktionstilstanden.

Logføre hændelser ved servicegrænser. Inkluder et korrelations-id, der flyder på tværs af servicegrænser. Hvis en transaktion løber gennem flere tjenester, og en af dem mislykkes, kan du bruge korrelations-id'et til at spore anmodninger på tværs af programmet og finde ud af, hvorfor transaktionen mislykkedes.

Separat program- og agentlogføring fra revision. Overvågningsposter vedligeholdes som regel i forbindelse med overholdelse eller lovgivningsmæssige krav og skal fuldføres. Hvis du vil undgå afbrudte transaktioner, skal du vedligeholde overvågningslogfiler, der er adskilt fra diagnosticeringslogfiler.

Brug white box-overvågning til at instrumentere programmet eller agenten med semantiske logge og metrikker. Indsaml metrikker og logfiler på program- og agentniveau, f.eks. hukommelsesforbrug eller forsinkelse på anmodning, fra programmet eller agenten for at informere en sundhedsmodel og for at registrere og forudsige problemer.

Brug sort boks-overvågning til at måle platformstjenester og den dermed for opståede kundeoplevelse. Black box-overvågning tester eksternt synlig applikation eller agentadfærd uden kendskab til systemets interne. Denne fremgangsmåde er almindelig ved måling af kundefokuserede serviceniveauindikatorer (SLI'er), serviceniveaumål (SLO'er) og serviceniveauaftaler (SLA'er).

Overvåg data og lager

Overvåg tilgængelighedens metrikværdier for dine lagerbeholdere. Når denne metrikværdi falder til under 100 %, indikerer den, at der ikke skrives. Midlertidig tilgængelighed kan forekomme, når din cloududbyder administrerer belastningen. Spor tendenser for tilgængelighed for at finde ud af, om der er problemer med arbejdsbelastningen. I nogle tilfælde indikerer et fald i tilgængelighedsmetrikværdierne for en lagerbeholder, at der er et fald i det beregningslag, der er knyttet til lagerbeholderen.

Der er mange målepunkter, der skal overvåges for databaser. I forbindelse med pålidelighed omfatter de vigtige målepunkter, der skal overvåges:

Varighed af forespørgsel
Timeouts
Ventetider
Hukommelsesbelastning
Låse

Power Platform-processtyring

Power Platform integreres med Application Insights, som er en del af Azure Monitor-økosystemet. Du kan bruge denne integration til at:

Abonner på telemetri, der er registreret af Dataverse-platformen i Application Insights, for diagnoser, ydeevne og drift, som programmer udfører på din Dataverse-database og i modelbaserede apps. Denne telemetri kan bruges til at diagnosticere og foretage fejlfinding af problemer, der vedrører fejl og ydeevne.
Opret forbindelse mellem dine lærredapps og Application Insights for at bruge disse analyser til at diagnosticere problemer, forstå, hvad brugerne rent faktisk gør med dine apps, skabe bedre forretningsbeslutninger og forbedre kvaliteten af dine apps.
Konfigurer Power Automate-telemetri til at flyde ind i Application Insights. Du kan bruge denne telemetri til at overvåge udførelse af cloudflow og oprette advarsler om under kørsel af cloudflow.
Registrer telemetridata fra din Microsoft Copilot Studio agent til brug i Azure Application Insights. Du kan bruge denne telemetri til at overvåge logførte meddelelser og hændelser, der sendes til og fra din agent, emner, der skal udløses under brugersamtaler, og brugerdefinerede telemetrihændelser, der kan sendes fra dine emner.

Power Platform-ressourcer logfører aktiviteter i Microsoft Purview-overholdelsesportalen. De fleste hændelser er tilgængelige inden for 24 timer efter aktiviteten. Brug ikke disse oplysninger til overvågning i realtid. Du kan finde flere oplysninger om logføring af aktiviteter i Power Platform i:

Din Power Platform-arbejdsbelastning kan omfatte Azure-ressourcer. Du kan få mere at vide om overvågning af anbefalinger til Azure-ressourcer i Anbefalinger til design og oprettelse af et overvågningssystem.

Power Platform CoE-startpakken er en samling af komponenter og værktøjer, der er udviklet til at hjælpe dig med at komme i gang med at udvikle en strategi for indføring og understøttelse af Power Platform. Pakken indeholder automatisering og værktøjer til at hjælpe teams med at etablere overvågning og automatisering, som er nødvendige for at understøtte et CoE.

Hvordan kontrollerer jeg min onlinetjenestes tilstand?

Kontrolliste for bæredygtighed

Se det fuldstændige sæt anbefalinger.

Kontrolliste for bæredygtighed

Del via

Anbefalinger til udvikling af en pålidelig overvågnings- og advarselsstrategi

Vigtigste designstrategier

Generel vejledning

Overvåg programmer og agenter

Overvåg data og lager

Power Platform-processtyring

Kontrolliste for bæredygtighed

Feedback

Yderligere ressourcer

Del via

Anbefalinger til udvikling af en pålidelig overvågnings- og advarselsstrategi

Vigtigste designstrategier

Generel vejledning

Overvåg programmer og agenter

Overvåg data og lager

Power Platform-processtyring

Relaterede oplysninger

Kontrolliste for bæredygtighed

Feedback

Yderligere ressourcer