Anbefalinger for utforming av pålitelig overvåkings- og varselstrategi
Gjelder denne Power Platform Well-Architected Reliability-sjekklisteanbefalingen:
RE:08 | Mål og publiser løsningens tilstandsindikatorer. Registrer oppetid og andre pålitelighetsdata kontinuerlig fra hele arbeidsbelastningen og fra enkeltkomponenter og viktige flytprosesser. |
---|
Denne veiledningen beskriver anbefalingene for utforming av en pålitelig overvåkings- og varselstrategi. Implementer denne strategien for å holde driftsteamene informert om miljøets tilstand og sikre at du oppfyller de etablerte pålitelighetsmålene for din arbeidsbelastning.
Definisjoner
Term | Definisjon |
---|---|
Måleverdier | Numeriske verdier som samles inn med jevne mellomrom. Måleverdier beskriver enkelte aspekter ved et system på et bestemt tidspunkt. |
Ressurslogger | Data som et system genererer om tilstanden til systemet. |
Sporinger | Data som gir informasjon om banen til en forespørsel via tjenester og komponenter. |
Viktige utformingsstrategier
Før du oppretter en overvåkings- og varselstrategi, må du utføre følgende oppgaver for arbeidsbelastningen som en del av pålitelighetsplanleggingen:
Identifiser kritiske og ikke-kritiske flyter.
Utfør feilmodusanalyse for flytene.
Identifiser pålitelighetsmål.
Utform en robust teststrategi.
Opprett en overvåkings- og varselstrategi for å gjøre operasjonsteamene oppmerksome, slik at de blir varslet om endringer i arbeidsbelastningens tilstand og raskt kan løse problemer. Tilstandsmodellen for kritiske flyter og for arbeidsbelastninger som omfatter kritiske flyter, må definere sunne, forringede og usunne tilstander. Utform overvåkingstilnærmingen slik at du umiddelbart kan fange opp endringer i disse tilstandene. Når helsetilstander endres fra sunne til forringede eller usunne, må varselmekanismer utløse automatiske gjenopprettingstiltak og varsler til de ansvarlige teamene.
Implementer anbefalingene nedenfor for å utforme en overvåkings- og varselstrategi som oppfyller kravene i din virksomhet.
Generell veiledning
Forstå forskjellen mellom måleverdier, logger og spor.
Aktiver logging for alle skyressurser. Bruk automatisering og styring i distribusjonene til å aktivere diagnoselogging i hele miljøet.
Videresend alle diagnoselogger til en sentralisert datamottaker og en analyseplattform, for eksempel et Log Analytics-arbeidsområde. Hvis du har krav til regional datasikkerhet, må du bruke lokale datamottakere i områdene som er underlagt disse kravene.
Avveining: Lagring og søk av logger medfører kostnader. Legg merke til hvordan logganalysen og oppbevaringen påvirker budsjettet, og finn den beste utnyttelsesfordelingen slik at kravene dine oppfylles.
Hvis arbeidsbelastningen din er underlagt ett eller flere rammeverk for samsvar, er noen av komponentloggene som håndterer sensitiv informasjon, også underlagt disse rammeverkene. Send de relevante komponentloggene til et SIEM-system (sikkerhetsinformasjon og hendelsesbehandling), for eksempel Microsoft Sentinel.
Opprett en loggoppbevaringspolicy som inneholder krav til langsiktig oppbevaring som samsvarsrammeverket pålegger deg.
Bruk strukturert logging for alle loggmeldinger til å optimalisere spørring av loggdataene.
Konfigurer varsler som skal utløses når verdier passerer viktige terskler som samsvarer med tilstandsendringer for en tilstandsmodell, for eksempel grønn til gul eller rød. Terskelkonfigurasjon er en praksis med kontinuerlig forbedring. Etter hvert som arbeidsbelastningen endres, kan tersklene du definerer, endres.
Vurder å bruke varsler når tilstander forbedres, for eksempel rødt til gult eller rødt til grønt, slik at operasjonsteamene kan spore disse hendelsene for fremtidig referanse.
Visualiser sanntidstilstanden i miljøet ved hjelp av egendefinerte instrumentbord.
Bruk data som samles inn under hendelser, til å forbedre tilstandsmodellene kontinuerlig.
Innlem overvåkings- og varslingstjenester for skyplattformer, inkludert tilstand på plattformnivå.
Innlem spesialbygd avansert overvåking og analyse som skyleverandøren din tilbyr, for eksempel Azure Monitor Insight-verktøy.
Implementer overvåking av sikkerhetskopiering og gjenoppretting for å registrere følgende:
- Datareplikeringsstatusen for å sikre at arbeidsbelastningen din oppnår gjenoppretting innenfor RPO-målet (Recovery Point Objective).
- Vellykkede og mislykkede sikkerhetskopieringer og gjenopprettinger.
- Gjenopprettingsvarigheten for å informere planleggingen av nødgjenoppretting.
Overvåk programmer og agenter
Logg data mens programmet eller agent kjører i produksjonsmiljøet. Du trenger tilstrekkelig informasjon for å diagnostisere årsaken til problemene i produksjonstilstanden.
Logg hendelser ved servicegrenser. Inkluder en korrelasjons-ID som flyter over servicegrensene. Hvis en transaksjon flyter gjennom flere tjenester og én av dem mislykkes, hjelper korrelasjons-ID-en deg med å spore forespørsler på tvers av appen og finne ut hvorfor transaksjonen mislyktes.
Separer logging for program og agent fra revisjon. Sporing av endringer av oppføringer beholdes vanligvis i henhold til samsvars- eller forskriftskrav, og de må være komplette. For å unngå forkastede transaksjoner må du holde logger for sporing av endringer atskilt fra diagnoselogger.
Bruk overvåking av hvite bokser til å instrumentere programmet, eller agent med semantiske logger og måleverdier. Samle inn måleverdier og logger på program- og agentnivå, for eksempel minneforbruk eller forespørselsforsinkelse, fra programmet eller agent for å informere en tilstandsmodell og oppdage og forutsi problemer.
Bruk svart boks-overvåking til å måle plattformtjenester og den resulterende kundeopplevelsen. Svar boks-overvåking tester eksternt synlig programmer eller agentvirkemåte uten kunnskap om innsiden av systemet. Denne metoden er vanlig for måling av kundesentriske servicenivåindikatorer, servicenivåmål og serviceavtaler.
Overvåk data og lagring
Overvåk måleverdiene for tilgjengelighet for lagringsbeholderne. Når denne måleverdien faller under 100 %, angir det mislykkede skrivinger. Midlertidige fall i tilgjengelighet kan forekomme når skyleverandøren din administrerer belastningen. Spor tilgjengelighetstrender for å finne ut om det er et problem med arbeidsbelastningen. I noen tilfeller indikerer et fall i måleverdiene for tilgjengelighet for en lagerbeholder en flaskehals i databehandlingslaget som er knyttet til lagringsbeholderen.
Det finnes mange måleverdier å overvåke for databaser. I forbindelse med pålitelighet er de viktige måleverdiene å overvåke følgende:
- Varighet for spørring
- Tidsavbrudd
- Ventetider
- Minneforbruk
- Låser
Tilrettelegging for Power Platform
Power Platform integreres med Application Insights, som er en del av Azure Monitor-økosystemet. Du kan bruke denne integreringen til følgende:
Abonner for å motta telemetri registrert av Dataverse-plattformen i Application Insights om diagnose, ytelse og operasjoner som programmer utfører i Dataverse-databasen og i modelldrevne apper. Denne telemetrien inneholder informasjon som du kan bruke til å diagnostisere og feilsøke problemer relatert til feil og ytelse.
Koble lerretsappene i Application Insights til å bruke disse analysene for å diagnostisere problemer, forstå hva brukere faktisk gjør med appene, ta bedre forretningsavgjørelser og forbedre kvaliteten på appene dine.
Konfigurer Power Automate-telemetri til flyt i Application Insights. Du kan bruke denne telemetrien til å overvåke kjøringer av skyflyter og opprette varsler for feil i skyflytkjøring.
Registrer telemetridata fra Microsoft Copilot Studio-agent for bruk i Azure Application Insights. Du kan bruke denne telemetrien til å overvåke loggede meldinger og hendelser som sendes til og fra agent, emner som skal utløses under brukersamtaler, og egendefinerte telemetrihendelser som kan sendes fra emnene.
Power Platform-ressurser logger aktiviteter i samsvarsportalen Microsoft Purview. De fleste hendelser er tilgjengelige innen 24 timer etter aktiviteten. Ikke bruk denne informasjonen til overvåking i sanntid. Hvis du vil ha mer informasjon om logging av aktiviteter i Power Platform, kan du se følgende:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform-koblinger
- Hindring av datatap
- Administrative Power Platform-logger
- Dataverse-sporing
Power Platform-arbeidsbelastningen din kan omfatte Azure-ressurser. Hvis du vil lære mer om anbefalinger om overvåking for Azure-ressurser, kan du se Anbefalinger for utforming og oppretting av et overvåkingssystem.
Power Platform CoE-startsettet er en referanseimplementering som inneholder en samling komponenter og verktøy som er utformet for å hjelpe deg i gang med å utvikle en strategi for innføring og å støtte Power Platform. Settet inneholder automatisering og enkelte verktøy for å hjelpe grupper med å bygge overvåkning og automatisering som kreves for å støtte et CoE.
Relatert informasjon
Hvordan kontrollerer jeg tilstanden til den nettbaserte tjenesten?
Sjekkliste for pålitelighet
Se hele settet med anbefalinger.