Operaties verbeteren met observatiemogelijkheden

Voltooid
Inzicht krijgen in het systeem, inzicht afleiden en gegevensgestuurde beslissingen nemen.

Bouw een cultuur die de kwaliteit continu verbetert door de workload te bewaken en rekening te houden met alle pijlers van het Azure Well-Architected Framework. Het team en de belanghebbenden in staat stellen om zowel korte- als langetermijnbeslissingen te nemen in veel facetten door de benodigde gegevens, statistieken en trends op te geven. Leer van uw gegevens en verbeteringen aanbrengen.

Bewerkingen die zijn gebouwd voor waarneembaarheid zijn essentieel voor proactief onderhoud van de toepassing, kwaliteit en beveiliging, capaciteitsplanning en productbeheer.

Een cruciaal aspect van toepassingsbewaking is het gebruik van statusmodellering om u te helpen bij het anticiperen op problemen voordat ze incidenten worden en invloed hebben op de klantervaring. Efficiënte bewaking vermindert reactieve cycli die worden besteed aan incidentbeheer.

Voorbeeldscenario

Contoso heeft een app ontwikkeld voor intern gebruik met de naam Contoso Real Estate. Met deze web-app kunnen nieuwe medewerkers of bestaande werknemers die verhuizen, zoeken naar en reserveren van huisvesting op korte termijn om te helpen bij hun verplaatsing. De HR-afdeling van Contoso maakt ook gebruik van de app om te helpen bij verplaatsingen.

De app is in productie en wordt volledig geïmplementeerd in Azure. Het is gebouwd op microservices met behulp van Azure Container Apps en maakt ook gebruik van Azure Functions, Azure Database for PostgreSQL, Azure Blob Storage en Azure Monitor.

Bekijk uw werklast via telemetrie

Telemetrie verzenden vanuit toepassingscode die de belangrijkste punten van de uitvoeringsstroom correleert en een end-to-end weergave biedt op verschillende granulariteitsniveaus.

Prioriteit geven aan acties op basis van het ernstniveau en inzicht krijgen in de context op basis van de uitgebreidheid ervan. Deze informatie is van cruciaal belang voor het oplossen van problemen.

de uitdaging van Contoso

  • Gebruikers melden dat na een recente update van de Contoso Real Estate-toepassing af en toe een lege pagina of een algemeen foutbericht wordt weergegeven op de zoekpagina van de web-app. De fouten lijken willekeurig en de zoekfunctionaliteit werkt meestal als de gebruikers de pagina alleen vernieuwen of de zoekopdracht opnieuw indienen.
  • Bij het controleren van de logboeken van de zoekmicroservice merkt het team een toename van fouten op vanwege time-outs bij het verbinden met de Azure Database voor PostgreSQL, maar ze hebben momenteel geen manier om te bepalen of een fout die ze in de logboeken van de zoekmicroservice zien overeenkomt met de foutpagina's die gebruikers zien.

de aanpak en resultaten toepassen

  • Het ontwikkelteam heeft besloten om de informatie uit de web-app en de kernmicroservices uit te breiden om dieper in te gaan op het probleem. Voor het zoekscenario zorgen ze ervoor dat de zoektermen worden vastgelegd, samen met andere beschikbare transactiekenmerken, zoals tijd, client-IP en de gebruikersnaam die aan de zoekopdracht is gekoppeld. Deze extra gegevens moeten hen voldoende informatie geven om transacties in verschillende lagen te kunnen correleren.
  • Met deze wijziging kon het team bevestigen dat time-outs voor databasequery's, die niet correct werden verwerkt in de nieuwste update van de app, de hoofdoorzaak waren van de fouten die de gebruikers ondervinden. Na het vinden van de hoofdoorzaak was het eenvoudig voor het team om een oplossing te implementeren.
  • Het team ontwerpt nu een nieuwe benadering, met behulp van OpenTelemetry, om een uitgebreidere gedistribueerde traceringsoplossing te implementeren die alle oplossingslagen omvat.

Bewakingsgegevens visualiseren in dashboards

Verzamel en visualiseer gegevens in dashboards om bewakingsgegevens te presenteren die geschikt zijn voor doelgroepen en houd rekening met de bedrijfscontext. Gebruik situatiedashboards voor het zichtbaar maken van gegevens om bewustwording onder de belanghebbenden te vergroten. Gebruik operationele dashboards en werkmappen met inzoommogelijkheden voor operatoractiviteiten zoals incidentrespons. Vernieuw regelmatig de dashboards en geef gedetailleerde gegevens op.

Met visualisaties kunt u trends analyseren, bijhouden op bedrijfsdoelen en incidenten beheren.

Dashboards die zijn afgestemd op het belang van de klant maken interpretatie relevant en versnellen tijd tot detectie en actie.

de uitdaging van Contoso

  • Het workloadteam verzamelt telemetriegegevens van alle oplossingslagen in één Log Analytics-werkruimte, die toegankelijk is voor de operationele en ontwikkelingsteams en andere belanghebbenden van het project. Interactie met de gegevens is echter moeilijk en complex, wat frustrerend is voor teamleden die achtergrondruis moeten onderscheiden van bruikbare gegevens.

de aanpak en resultaten toepassen

  • Het team begint met het aggregeren en visualiseren van gegevens met behulp van dashboards. Elk dashboard wordt afgestemd op een specifieke doelgroep:
    • De dashboards van de belanghebbenden van de oplossing zijn meer bedrijfsgericht, met een hoger niveau overzicht van de algehele gezondheid van de oplossing, samen met bedrijfsprestatie-indicatoren zoals het aantal bediende gebruikers, uitgevoerde zoekopdrachten en reserveringen.
    • Operationele dashboards en werkmappen bevatten meer gedetailleerde en fijnmazige gegevens voor het team van operationele werkzaamheden. Deze dashboards hebben inzoommogelijkheden waarmee gebruikers de gegevens op verschillende granulariteitsniveaus kunnen verkennen. De gebruikers kunnen deze dashboards en werkmappen gebruiken om probleemoplossing en andere incidentresponstaken uit te voeren.
  • Met de dashboards kunnen gebruikers trends analyseren, bedrijfsdoelen bijhouden en incidenten effectiever beheren. De gegevens die op elk dashboard worden gepresenteerd, zijn relevanter voor de beoogde doelgroep en worden gebaseerd op hun interesses en behoeften.

Een robuuste strategie voor waarschuwingen ontwerpen

Maak waarschuwingen uitvoerbaar door de verantwoordelijke rollen op de hoogte te stellen met gestandaardiseerde beschrijvingen en ernstniveaus. Geef informatie op die uit verschillende bronnen is gesorteerd en afwijkingen van bedrijfsdoelen bijhouden.

Activeer waarschuwingen alleen voor incidenten waarvoor actie is vereist en streef naar proactieve en doordachte waarschuwingen die acties initiëren voordat een verminderde staat een fout wordt. Een goed waarschuwingssysteem identificeert acties en ernst en biedt precies genoeg gegevens om duidelijkheid en doel te bereiken. Operators kunnen zonder vertraging beginnen met herstel.

de uitdaging van Contoso

  • Azure Monitor wordt gebruikt om waarschuwingen naar het operations-team te verzenden wanneer er iets misgaat. Het team ontvangt momenteel echter te veel waarschuwingen die irrelevant, onduidelijk of redundant zijn. Dit zorgt voor waarschuwingsoverbelasting en beïnvloedt de productiviteit van het team, waardoor enkele belangrijke waarschuwingen onopgemerkt blijven.
  • Er zijn ook enkele situaties van storingen die kunnen zijn voorkomen of geminimaliseerd als een waarschuwing werd verzonden naar aanleiding van een fout. Als het team betere waarschuwingen had voor degradatie voordat er storingen optreden, zijn deze situaties mogelijk vermeden. Er zijn bijvoorbeeld gevallen waarbij vertragingen in de verwerkingstijd van databasequery's tot storingen hebben geleid. Tijdens het oplossen van problemen met storingen merkt het team dat de prestaties van de queryverwerking na verloop van tijd langzaam afnemen, erger en slechter worden totdat er een volledige storing optreedt.

de aanpak en resultaten toepassen

  • Het operationele team start een initiatief voor het opschonen van alle waarschuwingen met lage prioriteit, waardoor waarschuwingsmoeheid ontstaat. Alleen kritieke en bruikbare waarschuwingen mogen actief blijven. Het team beoordeelt (en verbetert indien nodig) ook de waarschuwingen die actief blijven om ervoor te zorgen dat ze voldoende context bevatten om ze in staat te stellen de benodigde corrigerende maatregelen te nemen.
  • Ze nemen ook de mogelijkheid om nieuwe proactieve en bruikbare waarschuwingen te definiëren waarmee ze actie kunnen ondernemen voordat er een fout optreedt. Ze genereren bijvoorbeeld een nieuwe waarschuwing om de DBA's op de hoogte te stellen zodra er een consistente vertraging in de databasequeryprestaties wordt weergegeven.
  • Als volgende stap zoekt het team naar het automatiseren van reacties op veelvoorkomende waarschuwingen, zoals de situatie met databasequeryprestaties.

Uw kennis controleren

1.

Hoe kon Contoso de hoofdoorzaak van het probleem identificeren met lege pagina's en algemene fouten die sommige gebruikers hebben ervaren?

2.

Welke van de volgende manieren is een goede manier om bewakingsdashboards te ontwerpen?

3.

Waar of niet waar: waarschuwingen moeten meestal informatief zijn.