Aanbevelingen voor het ontwerpen van een betrouwbare strategie voor bewaken en waarschuwen

Artikel
02/05/2025

Van toepassing op deze aanbeveling voor de Power Platform Well-Architected-controlelijst voor betrouwbaarheid:

RE:08	De gezondheidsindicatoren van de oplossing meten en publiceren. Leg continu uptime- en andere betrouwbaarheidsgegevens vast van de hele workload, maar ook van individuele onderdelen en belangrijke stromen.

In deze guide worden de aanbevelingen voor het ontwerpen van een betrouwbare strategie voor bewaking en waarschuwingen beschreven. Implementeer deze strategie om uw operationele teams op de hoogte te houden van de integriteitsstatus van uw omgeving en ervoor te zorgen dat u voldoet aan de vastgestelde betrouwbaarheidsdoelstellingen voor uw workload.

Definities

Term	Definitie
Metrische gegevens voor	Numerieke waarden die met regelmatige intervallen worden verzameld. Metrische gegevens beschrijven enkele aspecten van een systeem op een bepaald moment.
Resourcelogboeken	Gegevens die een systeem genereert over de status van het systeem.
Traceringen	Gegevens die informatie bieden over het pad dat een aanvraag aflegt door services en onderdelen.

Belangrijke ontwerpstrategieën

Voordat u een bewakings- en waarschuwingsstrategie maakt, voert u de volgende taken uit voor uw workload als onderdeel van uw betrouwbaarheidsplanning:

Identificeer kritische en niet-kritische stromen.
Voer een analyse van de foutmodus (FMA) uit voor uw stromen.
Identificeer betrouwbaarheidsdoelen.
Ontwerp een robuuste teststrategie.

Creëer een bewakings- en waarschuwingsstrategie om uw operationele teams bewust te maken, zodat zij op de hoogte worden gesteld van wijzigingen in de status van uw workload en problemen snel kunnen oplossen. Het statusmodel voor uw kritieke stromen en voor workloads die kritieke stromen omvatten, moet de statussen voor in orde, verslechterd en beschadigd definiëren. Ontwerp uw bewakingshouding om veranderingen in deze statussen onmiddellijk op te vangen. Wanneer de integriteitsstatus verandert van in orde naar verslechterd of beschadigd, moeten waarschuwingsmechanismen automatische herstelmaatregelen activeren en waarschuwingen naar de verantwoordelijke teams.

Implementeer de volgende aanbevelingen om een bewakings- en waarschuwingsstrategie te ontwerpen die voldoet aan de vereisten van uw bedrijf.

Algemene richtlijnen

Zorg dat u het verschil kent tussen metrische gegevens, logboeken en traceringen.

Schakel logboekregistratie in voor alle cloudresources. Gebruik automatisering en governance in uw implementaties om diagnostische logboekregistratie in uw hele omgeving mogelijk te maken.

Stuur alle diagnostische logboeken door naar een gecentraliseerd gegevens-sink- en analyseplatform, zoals een Log Analytics-werkruimte. Als u regionale vereisten voor gegevenssoevereiniteit hebt, moet u lokale gegevens-sinks gebruiken in de regio's waarvoor deze vereisten gelden.

Afweging: er zijn kosten verbonden aan het opslaan en doorzoeken van logboeken. Wees u bewust van hoe uw logboekanalyse en -retentie uw budget beïnvloedt en bepaal de beste balans in het gebruik om aan uw vereisten te voldoen.

Als uw workloads onderworpen zijn aan een of meer nalevingsraamwerken, zijn sommige onderdeellogboeken die gevoelige informatie verwerken ook onderworpen aan die raamwerken. Stuur de relevante onderdeellogboeken naar een SIEM-systeem (Security Information and Event Management), zoals Microsoft Sentinel.

Maak bewaarbeleid voor logboeken waarin vereisten voor langetermijnretentie zijn opgenomen die de nalevingskaders aan uw workload opleggen.

Gebruik gestructureerde logboekregistratie voor alle logboekberichten om het opvragen van de logboekgegevens te optimaliseren.

Configureer waarschuwingen die worden geactiveerd wanneer waarden kritieke drempelwaarden overschrijden die verband houden met een wijziging in de status van het gezondheidsmodel, zoals groen naar geel of rood. Configuratie van drempelwaarden is een procedure voor continue verbetering. Naarmate uw workload zich ontwikkeld, kunnen de drempelwaarden die u definieert mogelijk veranderen.

Overweeg het gebruik van waarschuwingen wanneer de status verbetert, zoals van rood naar geel of van rood naar groen, zodat de operationele teams deze gebeurtenissen kunnen volgen voor toekomstig gebruik.

Visualiseer de realtime status van uw omgeving met behulp van aangepaste dashboards.

Gebruik gegevens die tijdens incidenten worden verzameld om uw gezondheidsmodellen voortdurend te blijven verbeteren.

Integreer bewakings- en waarschuwingsservices voor cloudplatforms, inclusief status op platformniveau.

Integreer speciaal gebouwde geavanceerde bewaking en analyse die uw cloudprovider biedt, zoals Azure Monitor hulpmiddelen voor inzicht.

Implementeer back-up- en herstelbewaking om het volgende vast te leggen:

De status voor gegevensreplicatie om ervoor te zorgen dat uw workload wordt hersteld binnen de beoogde herstelpuntdoelstelling (RPO).
Geslaagde en mislukte back-ups en herstelacties.
De herstelduur, voor uw planning voor herstel na noodgevallen.

Toepassingen en agenten bewaken

Registreer gegevens terwijl de toepassing of agent in de productieomgeving wordt uitgevoerd. U hebt voldoende informatie nodig om de oorzaak van problemen in de productiestatus te kunnen vaststellen.

Registreer gebeurtenissen bij servicegrenzen. Voeg een servicegrenzen-overschrijdende correlatie-id toe. Als een transactie via meerdere services stroomt en een daarvan mislukt, helpt de correlatie-id u om aanvragen in uw toepassing te volgen en vast te stellen waarom de transactie is mislukt.

Scheid de logboekregistratie van toepassingen en agenten af van de controle. Auditrecords worden gewoonlijk bijgehouden voor nalevings- of wettelijke vereisten en moeten volledig zijn. Om te voorkomen dat transacties verloren gaan, houdt u auditlogboeken gescheiden van diagnostische logbestanden.

Gebruik white box-bewaking om de toepassing of agent in te stellen met semantische logboeken en metrische gegevens. Verzamel metrische gegevens en logboeken op toepassings- en agentniveau, zoals geheugengebruik of aanvraaglatentie, van de toepassing of agent om een statusmodel door te geven en problemen te detecteren en voorspellen.

Gebruik black box-bewaking om platformservices en de daaruit voortvloeiende klantervaring te meten. Bij black box-bewaking wordt extern zichtbaar gedrag van de toepassing of agent getest zonder dat er kennis is van de interne werking van het systeem. Deze aanpak is gebruikelijk voor het meten van klantgerichte serviceniveau-indicatoren (SLI's), serviceniveaudoelstellingen (SLO's) en dienstverleningsovereenkomsten (SLA's).

Gegevens en opslag bewaken

Houd de metrische gegevens voor beschikbaarheid van uw opslagcontainers bij. Wanneer deze meetwaarde onder de 100% daalt, duidt dit op mislukte schrijfbewerkingen. Tijdelijke dalingen in de beschikbaarheid kunnen optreden wanneer uw cloudprovider de belasting beheert. Volg de beschikbaarheidstrends om te bepalen of er een probleem is met uw workload. In sommige gevallen duidt een daling in de metrische waarden voor beschikbaarheid voor een opslagcontainer op een knelpunt in de rekenlaag die aan de opslagcontainer is gekoppeld.

Er zijn veel metrische waarden die voor databases moeten worden bijgehouden. In de context van betrouwbaarheid zijn de belangrijke metrische gegevens die moeten worden gecontroleerd onder meer:

Queryduur
Time-outs
Wachttijden
Geheugendruk
Vergrendelingen

Power Platform-facilitering

Power Platform integreert met Application Insights, dat onderdeel is van het Azure Monitor-ecosysteem. U kunt deze integratie gebruiken om:

Meld u aan om telemetrie te ontvangen die is vastgelegd door het Dataverse-platform in Application Insights over diagnostische gegevens, prestaties en bewerkingen die applicaties uitvoeren op uw Dataverse-database en met modelgestuurde apps. Deze telemetrie biedt informatie die u kunt gebruiken om problemen met betrekking tot fouten en prestaties te diagnosticeren en op te lossen.
Koppel uw canvas-apps aan Application Insights om deze analyses te gebruiken voor het diagnosticeren van problemen, inzicht te verkrijgen in wat gebruikers daadwerkelijk met uw apps doen, het nemen van betere zakelijke beslissingen en verbetering van de kwaliteit van uw apps.
Configureer Power Automate-telemetrie zodat deze naar Application Insights stroomt. U kunt deze telemetrie gebruiken om de uitvoering van cloudstromen te controleren en waarschuwingen te maken voor uitvoeringsfouten in de cloudstroom.
Leg telemetriegegevens vast van uw Microsoft Copilot Studio agent voor gebruik in Azure Application Insights. U kunt deze telemetrie gebruiken om geregistreerde berichten en gebeurtenissen te bewaken die naar en van uw agent worden verzonden, onderwerpen die tijdens gebruikersgesprekken moeten worden geactiveerd en aangepaste telemetriegebeurtenissen die vanuit uw onderwerpen kunnen worden verzonden.

Resource-logboekactiviteiten van Power Platform in de Microsoft Purview-complianceportal. De meeste gebeurtenissen zijn beschikbaar binnen 24 uur na de activiteit. Gebruik deze informatie niet voor realtime bewaking. Voor meer informatie over het loggen van activiteiten in Power Platform raadpleegt u:

Uw Power Platform-workload kan Azure-resources omvatten. Voor meer informatie over het aanbevelingen voor bewaking van Azure-resources raadpleegt u Aanbevelingen voor het ontwerpen en maken van een bewakingssysteem.

De Power Platform CoE Starter Kit is een referentie-implementatie die een verzameling onderdelen en hulpmiddelen omvat die zijn ontworpen om u op weg te helpen met het ontwikkelen van een strategie voor het invoeren en ondersteunen van Power Platform. De kit biedt automatisering en tooling om teams te helpen bij het bouwen van de bewaking en automatisering die nodig zijn om een CoE te ondersteunen.

Hoe kan ik mijn online servicestatus controleren?

Controlelijst voor betrouwbaarheid

Raadpleeg de volledige reeks aanbevelingen.

Controlelijst voor betrouwbaarheid

Delen via

Aanbevelingen voor het ontwerpen van een betrouwbare strategie voor bewaken en waarschuwen

Belangrijke ontwerpstrategieën

Algemene richtlijnen

Toepassingen en agenten bewaken

Gegevens en opslag bewaken

Power Platform-facilitering

Controlelijst voor betrouwbaarheid

Feedback

Aanvullende resources

Delen via

Aanbevelingen voor het ontwerpen van een betrouwbare strategie voor bewaken en waarschuwen

Belangrijke ontwerpstrategieën

Algemene richtlijnen

Toepassingen en agenten bewaken

Gegevens en opslag bewaken

Power Platform-facilitering

Gerelateerde informatie

Controlelijst voor betrouwbaarheid

Feedback

Aanvullende resources