Anbefalinger for utforming og oppretting av et overvåkingssystem
Gjelder denne Power Platform Well-Architected Framework Operational Excellence-sjekklisteanbefalingen:
OE:06 | Utforme og implementer et overvåkingssystem for å validere utformingsvalg og informere fremtidige utformings- og forretningsavgjørelser. Dette systemet fanger opp og eksponerer operativ telemetri, måleverdier og logger som sendes ut fra arbeidsbelastningen. |
---|
Denne veiledningen beskriver anbefalingene for utforming og oppretting av et overvåkingssystem. For å kunne overvåke arbeidsbelastningen på en effektiv måte for sikkerhet, ytelse og pålitelighet trenger du et omfattende system med en egen stakk som utgjør fundamentet for alle overvåkings-, registrerings- og varselfunksjoner.
Definisjoner
Term | Definisjon |
---|---|
Logger | Registrerte systemhendelser. Logger kan inneholde ulike typer data i et strukturert eller friformstekstformat. De inneholder et tidsstempel. |
Måleverdier | Numeriske verdier som samles inn med jevne mellomrom. Måleverdier beskriver enkelte aspekter ved et system på et bestemt tidspunkt. |
Viktige utformingsstrategier
Følg disse kjerneprinsippene for å implementere et omfattende overvåkingssystem for arbeidsbelastningen:
Når det er praktisk mulig, kan du dra nytte av plattformleverte overvåkingsverktøy, som vanligvis krever lite konfigurasjon og kan gi dyp innsikt i arbeidsbelastningen som ellers kan være vanskelig å oppnå.
Samle logger og måleverdier fra hele arbeidsbelastningsstakken. Alle komponenter og ressurser med lavkode og kode først må konfigureres til å produsere standardiserte, meningsfulle data, og de dataene må samles inn.
Lagre de innsamlede dataene i en standardisert, pålitelig og sikker lagringsløsning.
Behandle lagrede data slik at de kan håndteres av analyse- og visualiseringsløsninger.
Analyser behandlede data for å fastslå tilstanden til arbeidsbelastningen nøyaktig.
Visualiser tilstanden til arbeidsbelastningen i meningsfulle instrumentbord eller rapporter for arbeidsbelastningsteam og andre interessenter.
Konfigurer handlingsbare varsler og andre automatiske svar på intelligent definerte grenseverdier for å varsle arbeidsbelastningsteam når det oppstår problemer.
Inkluder overvåkings- og varselsystemer i de generelle testprosedyrene for arbeidsbelastning.
Sørg for at overvåkings- og varselsystemer kan forbedres kontinuerlig. App- og konfigurasjonsvirkemåte i produksjon gir kontinuerlige læringsmuligheter. Innlem disse leksjonene i overvåkings- og varselutforming.
Knytt overvåkingsdataene du samler inn og analyserer, tilbake til systemet og brukerflytene for å korrelere tilstanden til flytene med dataene og den generelle tilstanden til arbeidsbelastningen. Analyse av disse dataene i form av flytene bidrar til å justere din observerbarhetsstrategi med tilstandsmodellen din.
Minimer lagringsplassen for identifiserbare opplysninger for å sikre at du overholder lover og forskrifter. Hvis du må lagre identifiserbar informasjon, må du passe på at når du utformer løsningen, tar du hensyn til krav som gjør det mulig for enkeltpersoner å be om at informasjonen deres slettes.
Du må aldri registrere brukerpassord eller annen informasjon som kan brukes til å begå identitetssvindel. Fjern disse detaljene fra dataene før de lagres. Forskriftskrav kan diktere at informasjon som samles inn for sporing av endringer og sikkerhet, må arkiveres og lagres. Disse dataene er også sensitive og må kanskje krypteres eller på annen måte beskyttes for å hindre tukling.
Du bør automatisere alle funksjonene i overvåkingssystemet så mye som mulig, og alle må kjøre kontinuerlig hele dagen, hver dag.
Denne arbeidsflytforløpet illustrerer overvåkingssystemet:
Samling
Du bør konfigurere alle arbeidsbelastningskomponenter, enten de er lavkode- eller kode først-komponenter eller plattforminnstillinger som miljøer og policyer, for å registrere telemetri og hendelser som logger og måleverdier.
Logger er først og fremst nyttige for å registrere og undersøke avvik. Vanligvis produseres logger av arbeidsbelastningskomponenten og sendes deretter til overvåkingsplattformen eller trekkes av overvåkingsplattformen med automatisering.
Måleverdier er først og fremst nyttige for å bygge en tilstandsmodell og identifisere trender for arbeidsbelastningsytelse og -pålitelighet. Måleverdier er også nyttige for å identifisere trender i forbruksatferden til brukerne. Disse trendene kan hjelpe deg med å veilede avgjørelser om forbedringer fra kundens perspektiv. Måleverdier defineres vanligvis på overvåkingsplattformen, og overvåkingsplattformen og andre verktøy måler arbeidsbelastningen for å registrere måleverdier.
Arbeidsbelastningsdata
Bruk den medfølgende integreringen med Application Insights til å samle inn data. Når Application Insights er aktivert, kan du få tydelig informasjon om viktige hendelser, både i sanntid og historisk.
Programlogger støtter hele programlivssyklusen. Logging er viktig for å forstå hvordan programmet fungerer i ulike miljøer, hvilke hendelser som inntreffer, og forholdene de oppstår under.
Vi anbefaler at du samler inn programlogger og hendelser i alle større miljøer. Skill dataene mellom miljøer så mye som mulig ved å bruke forskjellige datalagre for hvert miljø hvis dette er praktisk. Bruk filtre for å sikre at ikke-kritiske miljøer ikke gjør produksjonsloggene vanskeligere å tolke. Til slutt skal tilsvarende loggoppføringer i programmet registrere en korrelasjons-ID for de respektive transaksjonene.
Infrastruktur og konfigurasjonsdata
For infrastrukturressurser i arbeidsbelastningen må du sørge for at du samler inn både logger og måleverdier. Fordi Power Platform er et plattform som en tjeneste-tilbud (PaaS), kan du være begrenset i muligheten til å registrere logger relatert til underliggende infrastruktur. Du kan imidlertid registrere logger og analyse av konfigurasjons- og policyendringer relatert til arbeidsbelastningstilstand og hendelser.
Samle inn logger fra skyplattformen så mye som mulig. Det kan hende du kan samle inn aktivitetslogger for abonnementet ditt og diagnoseloggene for administrasjonsplanet.
Ytelseshensyn
Et komplekst og svært skalerbart program kan generere store datavolumer. Datamengden kan føre til ytelsesproblemer avhengig av hvor detaljert sporingen er på programnivå. Telemetriløsningen må ikke fungere som en flaskehals og må være skalerbar etter hvert som systemet utvides.
Analyse
Når du har samlet inn data fra ulike kilder, analyserer du dem for å vurdere systemets generelle tilstand. For denne analysen, ha en klar forståelse av følgende:
- Slik strukturerer du data basert på nøkkelindikatorer og andre ytelsesmåleverdier du har definert.
- Hvordan du korrelerer dataene som er registrert i diverse måleverdier og loggfiler. Denne korrelasjonen er viktig når du sporer en hendelsessekvens og kan hjelpe deg med å diagnostisere problemer.
I de fleste tilfeller vil arbeidsbelastningen ha forskjellige komponenter, og logger eller hendelser registreres i forskjellige formater eller tabeller. Du må kombinere dataene nøyaktig for å få en forståelse av den generelle tilstanden til arbeidsbelastningen.
For eksempel kan Power Platform-løsningen din bestå av følgende komponenter:
- En lerretsapp som gjør det mulig for brukere å samhandle med dataene
- En modelldrevet app som gjør det mulig for administratorer å konfigurere innstillinger for programmet
- En skyflyt som utfører dataoperasjoner
- En Dataverse-forekomst som lagrer data tilknyttet operasjonen
- En Azure-funksjon som henter data fra Azure Table Storage og kalles fra programmet
Bruksdataene for én enkelt forretningsoperasjon kan omfatte alle komponentene i arbeidsbelastningen. Denne informasjonen må korreleres for å gi en oversikt over ressursen og behandlingsbruken for operasjonen.
Anbefalinger for dataanalyse
Korreler logger på programnivå og ressursnivå. Evaluer data på begge nivåer for å optimalisere oppdagelse og feilsøking av problemer.
Definer klare oppbevaringstider for lagring for kald analyse. Vi anbefaler at du bruker denne praksisen til å aktivere historiske analyser i løpet av en bestemt periode. Det kan også hjelpe deg med å styre lagringskostnadene. Implementer prosesser som sikrer at data arkiveres for å lagre lagringsplass, og akkumuler data for trendanalyse på lang sikt.
Analyser trender på lang sikt for å forutsi driftsproblemer. Evaluer langtidsdata for å danne driftsstrategier, og også for å forutsi hvilke driftsproblemer som sannsynligvis vil oppstå, og når. Du kan for eksempel merke deg at gjennomsnittlige svartider øker langsomt over tid og nærmer seg det maksimale målet.
Visualisering
Visualisering i tilstandsovervåkning er viktig for å forstå tilstanden til arbeidsbelastningen. Visualisering kan hjelpe deg med raskt å identifisere problemer og trender, og kan også hjelpe deg med å forstå effekten av endringer du gjør i arbeidsbelastningen.
Instrumentbord
Den vanligste måten å visualisere data på er å bruke instrumentbord som kan vise informasjon i form av diagrammer eller grafer. Disse elementene kan parameteriseres, og en analytiker kan velge viktige parametere, for eksempel tidsperioden, for en bestemt situasjon.
Juster instrumentbordene med tilstandsmodellen slik at de angir når arbeidsbelastningen eller komponentene i arbeidsbelastningen er sunne, nedgraderte eller usunne.
For at et instrumentbordsystem skal fungere effektivt, må det være meningsfylt for arbeidsbelastningsteamet. Visualiser informasjon som er relatert til arbeidsbelastningstilstand, og som også kan brukes. Når arbeidsbelastningen eller en komponent blir nedgradert eller usunn, skal medlemmene av arbeidsbelastningsteamet enkelt kunne identifisere hvor i arbeidsbelastningen problemet kommer fra, og starte korrigeringene eller undersøkelsene. Omvendt, inkludert informasjon som ikke er handlingsbar eller som ikke er relatert til arbeidsbelastningstilstand, kan gjøre instrumentbordet unødvendig komplisert og frustrerende for teammedlemmer som prøver å skille bakgrunnsstøy fra handlingsbare data.
Du har kanskje instrumentbord for interessenter eller utviklere som er tilpasset til bare å vise data om arbeidsbelastningen de synes er relevant. Sørg for at arbeidsbelastningsteamet forstår hvilke typer datapunkter som andre team er interessert i å se, og forhåndsvis instrumentbordene før du deler dem, slik at det blir en klarhet. Å tilby instrumentbord om arbeidsbelastningen for interessenter er en god måte å holde dem informert om arbeidsbelastningstilstanden, men innebærer en risiko for å virke mot sin hensikt hvis interessentene ikke forstår dataene tydelig.
Begrens tilgang til instrumentbord til autorisert personell. Informasjon om instrumentbord kan være sensitiv. Du bør også beskytte de underliggende dataene for å hindre at brukere endrer dem.
Rapporterer
Rapportering brukes til å generere en generell visning av systemet. Den kan inkludere historiske data og gjeldende informasjon. Rapporteringskravene faller inn i to brede kategorier: driftsrapportering og sikkerhetsrapportering.
Driftsrapportering omfatter vanligvis følgende:
- Samle statistikk som du kan bruke for å forstå ressursutnyttelse av det totale systemet eller bestemte delsystemer i løpet av et bestemt tidsvindu.
- Identifisere trender i ressursbruken for det totale systemet eller angitte delsystemer i løpet av en bestemt periode.
- Overvåkinge unntak som har forekommet i hele systemet eller i angitte delsystemer i løpet av en angitt periode.
- Fastsette effektiviteten til programmet for de distribuerte ressursene og forstå hvorvidt ressursvolumet og de tilknyttede kostnadene kan reduseres uten at ytelsen blir unødvendig påvirket.
Sikkerhetsrapportering sporer kundebruken av systemet. Det kan omfatte følgende:
- Sporing av endringer i brukeroperasjoner. Denne oppgaven krever at du registrerer individuelle forespørsler som hver bruker fullfører, sammen med datoer og klokkeslett. Dataene må struktureres slik at en administrator kan rekonstruere sekvensen av operasjoner som en bruker fullfører i løpet av en bestemt periode.
- Spore ressursbruk etter bruker. Denne oppgaven krever registrering av hvordan hver forespørsel fra en bruker får tilgang til de ulike ressursene i systemet, og hvor lenge. En administrator kan bruke disse dataene til å generere en utnyttelsesrapport, etter bruker, for en bestemt periode, kanskje for fakturering.
Varsler
Du kan sikre at systemet holder seg stabilt, responsivt og sikkert ved å angi varsler slik at operatørene kan svare på dem i tide. Et varsel kan inneholde nok kontekstuell informasjon til at de kan komme raskt i gang med diagnoseaktiviteter.
Anbefalinger for varsling
- Definer en prosess for varselsvar som identifiserer de ansvarlige eierne og handlingene.
- Konfigurer varsler for et godt definert omfang, og juster detaljnivå for å redusere støy.
- Bruk en automatisk varselløsning, for eksempel Splunk eller Azure Monitor, i stedet for å kreve at personer aktivt ser etter problemer.
- Bruk varsler til å drifte utbedringsprosesser. Opprett for eksempel automatisk billetter for å spore problemer og løsninger.
Terskler
Varsler genereres når terskler brytes, som registreres av overvåkingssystemet. Sørg for at tersklene du angir, generelt gir deg nok tid til å implementere de nødvendige endringene i arbeidsbelastningen for å unngå forringelse eller avbrudd. Du bør også implementere nødvendig feilhåndtering og fange opp kjente feil i arbeidsbelastningen for å redusere antall varsler. Du kan for eksempel konfigurere policyer for nye forsøk for handlingene i skyflyter, slik at et nytt forsøk forsøkes som en del av flytkjøringen, og bare hvis gjentatte nye forsøk mislykkes og flytfeil registreres og et varsel sendes. Lær mer i Anbefaling av utforming av en pålitelig overvåkings- og varslingsstrategi.
Tilrettelegging for Power Platform
Power Platform integreres med Application Insights, som er en del av Azure Monitor-økosystemet. Bruk denne integreringen til å gjøre følgende:
Motta telemetri om diagnostisering og ytelse som registreres av Dataverse-plattformen i Application Insights. Du kan abonnere for å motta telemetri om operasjoner som programmer utfører i Dataverse-databasen og i modelldrevne apper. Denne telemetrien inneholder informasjon som du kan bruke til å diagnostisere og feilsøke problemer relatert til feil og ytelse.
Koble lerretsappene til Application Insights. Du kan bruke disse analysene til å diagnostisere problemer og forstå hva brukerne gjør med appene dine. Du kan samle inn informasjon som hjelper deg med å ta bedre forretningsavgjørelser og forbedre kvaliteten på appene dine.
Konfigurer Power Automate-telemetri til flyt i Application Insights. Du kan for eksempel overvåke kjøring av skyflyt og opprette varsler for feil ved skyflytkjøring.
Registrer telemetridata fra Microsoft Copilot Studio-agent for bruk i Azure Application Insights. Du kan bruke denne telemetrien til å overvåke loggede meldinger og hendelser som sendes til og fra agent, emner som skal utløses under brukersamtaler, og egendefinerte telemetrihendelser som kan sendes fra emnene.
Power Platform-ressurser logger aktiviteter i samsvarsportalen Microsoft Purview. De fleste hendelser er tilgjengelige innen 24 timer etter aktiviteten. Ikke bruk denne informasjonen til overvåking i sanntid. Hvis du vil ha mer informasjon om logging av aktiviteter i Power Platform, kan du se følgende:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform-koblinger
- Hindring av datatap
- Administrative Power Platform-logger
- Dataverse-sporing
Power Platform-arbeidsmengden kan omfatte Azure-ressurser. Finn ut mer i Anbefalinger for utforming og oppretting av et overvåkingssystem.
Power Platform CoE-startsettet er en referanseimplementering som inneholder en samling komponenter og verktøy som er utformet for å hjelpe deg i gang med å utvikle en strategi for innføring og å støtte Power Platform. Startpakken for CoE følger med et omfattende sett med instrumentbord. Finn ut mer i Få dyp innsikt i Microsoft Power Platform-innføringen med CoE Power BI-instrumentbordet.
Power Platform-automatiseringspakken er et sett med verktøy som akselererer bruken og støtten for Power Automate for skrivebord for automatiseringsprosjekter. Pakken inneholder verktøy som hjelper deg med å administrere automatiseringsprosjekter og overvåke dem for å beregne penger spart og avkastning. En del av automatiseringssettet er kontrollsenteret, som utfyller funksjonen Overvåk skrivebordsflytkjøringer. Hovedfokuset for kontrollsenteret er en iverksettingsvisning der analytikere og organisasjoner kan overvåke, iverksette tiltak og varsle når det er nødvendig.
Relatert informasjon
- Anbefalinger for utforming av pålitelig overvåkings- og varselstrategi
- Anbefalinger for overvåking og trusselregistrering