Delen via


Problemen met grijze agentstatussen oplossen in System Center Operations Manager

In dit artikel wordt beschreven hoe u problemen oplost waarbij een agent, een beheerserver of een gateway niet beschikbaar of grijs wordt weergegeven in System Center Operations Manager (OpsMgr).

Oorspronkelijke productversie: Microsoft System Center 2012 Operations Manager
Oorspronkelijk KB-nummer: 2288515

Een agent, een beheerserver of een gateway kan een van de volgende statussen hebben, zoals aangegeven met de kleur van de agentnaam en het pictogram in het deelvenster Bewaking .

Provincie Uiterlijk Beschrijving
In orde Groen vinkje De agent of beheerserver wordt normaal uitgevoerd.
Kritiek Rood vinkje Er is een probleem op de agent of managementserver.
Onbekend Grijze agentnaam, grijs vinkje De Health Service Watcher op de managementserver die de statusservice op de bewaakte computer bekijkt, ontvangt geen heartbeats meer van de agent. De health service watcher had eerder heartbeats ontvangen en de status werd gerapporteerd als in orde. Dit betekent ook dat de managementservers geen informatie meer ontvangen van de agent.

Dit probleem kan optreden als de computer waarop de agent wordt uitgevoerd, niet wordt uitgevoerd of als er verbindingsproblemen zijn.
Onbekend Groene cirkel, geen vinkje De status van het gedetecteerde item is onbekend. Er is geen monitor beschikbaar voor dit specifieke gedetecteerde item.

Oorzaken van een grijze status

Een agent, een managementserver of een gateway kan om een van de volgende redenen niet meer beschikbaar zijn:

  • Heartbeat-fout
  • Ongeldige configuratie
  • Systeemwerkstroomfout
  • Prestatieproblemen met Operations Manager-database of data warehouse
  • Prestatieproblemen met managementserver of gatewayserver
  • Netwerk- of verificatieproblemen
  • De health-service wordt niet uitgevoerd

Bereik van probleem

Voordat u begint met het oplossen van het probleem met grijs weergegeven agent, moet u eerst de Operations Manager-topologie begrijpen en vervolgens het bereik van het probleem definiëren. De volgende vragen kunnen u helpen bij het definiëren van het bereik van het probleem:

  • Hoeveel agents worden beïnvloed?
  • Ondervinden de agents het probleem in hetzelfde netwerksegment?
  • Rapporteren de agents naar dezelfde beheerserver?
  • Hoe vaak voeren de agents een grijze status in en blijven ze behouden?
  • Hoe herstelt u doorgaans uit deze situatie (bijvoorbeeld de statusservice van de agent opnieuw opstarten, de cache wissen, afhankelijk zijn van automatisch herstel)?
  • Worden de waarschuwingen voor heartbeatfouten gegenereerd voor deze agents?
  • Treedt dit probleem op tijdens een bepaald tijdstip van de dag?
  • Blijft dit probleem zich voordoen als u een failover van deze agents naar een andere beheerserver of gateway uitvoert?
  • Wanneer is dit probleem begonnen?
  • Zijn er wijzigingen aangebracht in de agents, de beheerservers of de gateway of beheergroep?
  • Zijn de betrokken agents geclusterde Windows-systemen?
  • Is de healthservicestatusmap uitgesloten van antivirusscans?

Strategie voor probleemoplossing

Uw strategie voor probleemoplossing wordt bepaald door welk onderdeel inactief is, waar dat onderdeel binnen de topologie valt en hoe wijdverspreid het probleem is. Houd rekening met de volgende voorwaarden:

  • Als de agents die rapporteren aan een bepaalde beheerserver of gateway niet beschikbaar zijn, moet de probleemoplossing beginnen op beheerserver- of gatewayniveau.
  • Als de gateways die rapporteren aan een bepaalde beheerserver niet beschikbaar zijn, moet de probleemoplossing beginnen op beheerserverniveau.
  • Voor systemen zonder agent, voor netwerkapparaten en voor Unix- en Linux-servers, moet de probleemoplossing beginnen bij de agent, beheerserver of gateway die deze objecten bewaakt.
  • Probleemoplossing begint meestal op het niveau direct boven het niet-beschikbare onderdeel.

Scenario 1

Slechts enkele agents worden beïnvloed door het probleem. Deze agents rapporteren aan verschillende beheerservers. Agents blijven regelmatig niet beschikbaar. Hoewel u de cache van de agent kunt wissen om het probleem tijdelijk op te lossen, treedt het probleem na een paar dagen opnieuw op.

Oplossing voor scenario 1

Volg deze stappen om het probleem in dit scenario op te lossen:

  1. Pas de juiste hotfix toe op de betreffende besturingssystemen.
  2. Sluit de agentcache uit van antivirusscans. Zie Aanbevelingen voor antivirusuitsluitingen die betrekking hebben op Operations Manager voor meer informatie.
  3. Stop de health service.
  4. Wis de cache van de agent.
  5. Start de health service.

Scenario 2

Slechts enkele agents worden beïnvloed door het probleem. Deze agents rapporteren aan verschillende beheerservers. Agents blijven voortdurend inactief. Hoewel u de cache van de agent kunt wissen, wordt het probleem hiermee niet opgelost.

Oplossing voor scenario 2

Volg deze stappen om het probleem in dit scenario op te lossen:

  1. Bepaal of de health-service is ingeschakeld en momenteel wordt uitgevoerd op de beheerserver of gateway. Als de statusservice niet meer reageert, genereert u een ADPlus-dump in een servicehangmodus om de oorzaak van het probleem te bepalen. Zie AdPlus.vbs gebruiken voor het oplossen van problemen met 'vastlopen' en 'crashes' voor meer informatie

  2. Bekijk het gebeurtenislogboek van Operations Manager op de agent om een van de volgende gebeurtenissen te vinden:

    Gebeurtenis-id 1102
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Regel/Monitor %4 die wordt uitgevoerd voor bijvoorbeeld %3 met id:%2, kan niet worden geïnitialiseerd en wordt niet geladen. Beheergroep %1

    Gebeurtenis-id 1103
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Samenvatting: %2 regel(en)/monitor(s) is mislukt en is verwijderd. %3 van deze regels heeft de foutlimiet bereikt waardoor automatisch opnieuw laden wordt voorkomen. Beheergroep %1. Dit is een gebeurtenis met slechts een samenvatting. Bekijk andere gebeurtenissen met beschrijvingen van niet-geladen regel(s)/monitor(s).

    Gebeurtenis-id: 1104
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    RunAs-profiel in werkstroom %4, dat bijvoorbeeld %3 met id:%2 wordt uitgevoerd, kan niet worden omgezet. Werkstroom wordt niet geladen. Beheergroep %1

    Gebeurtenis-id 1105
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Type komt niet overeen voor het RunAs-profiel in de werkstroom %4, bijvoorbeeld %3 met id:%2. Werkstroom wordt niet geladen. Beheergroep %1

    Gebeurtenis-id: 1106
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Kan geen toegang krijgen tot runAs-profiel zonder opmaak in werkstroom %4, bijvoorbeeld %3 met id:%2. Werkstroom wordt niet geladen. Beheergroep %1

    Gebeurtenis-id: 1107
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Account voor RunAs-profiel in werkstroom %4, dat bijvoorbeeld %3 wordt uitgevoerd met id:%2, is niet gedefinieerd. Werkstroom wordt niet geladen. Koppel een account aan het profiel. Beheergroep %1

    Gebeurtenis-id: 1108
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Een account dat is opgegeven in het Uitvoeren als-profiel %7, kan niet worden omgezet. Het account wordt met name gebruikt in de beveiligde verwijzingsoverschrijving %6. %n%n Dit kan worden veroorzaakt doordat het account niet is geconfigureerd om naar deze computer te worden gedistribueerd. Om dit probleem op te lossen, opent u het hieronder genoemde Uitvoeren als-profiel. Zoek de accountvermelding aan de hand van de SSID en kies er desgewenst voor om het account naar de computer te distribueren of om de instelling in het profiel te wijzigen, zodat het doelobject het opgegeven account niet gebruikt. %n%nBeheergroep: %1 %nUitvoeren als-profiel: %7 %nNaam SecureReferenceOverride: %6 %nSecureReferenceOverride-id: %4 %nObjectnaam: %3 %nObject-id: %2 %nAccount-SSID: %5

    Gebeurtenis-id: 4000
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Een bewakingshost reageert niet of is vastgelopen. De statuscode voor de hostfout is %1.

    Gebeurtenis-id: 21016
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    OpsMgr kan geen communicatiekanaal instellen op %1 en er zijn geen failoverhosts. De communicatie wordt hervat wanneer %1 beschikbaar is en communicatie vanaf deze computer is toegestaan.

    Gebeurtenis-id: 21006
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    De OpsMgr-connector kan geen verbinding maken met %1:%2. De foutcode is %3(%4). Controleer of er een netwerkverbinding is, of de server wordt uitgevoerd en de luisterpoort heeft geregistreerd en of er geen firewalls zijn die verkeer naar de bestemming blokkeren.

    Gebeurtenis-id: 20070
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    De OpsMgr-connector is verbonden met %1, maar de verbinding is onmiddellijk gesloten nadat de verificatie is opgetreden. De meest waarschijnlijke oorzaak van deze fout is dat de agent niet gemachtigd is om te communiceren met de server of dat de server geen configuratie heeft ontvangen. Controleer het gebeurtenislogboek op de server op de aanwezigheid van 20000 gebeurtenissen, waarmee wordt aangegeven dat agents die niet zijn goedgekeurd, verbinding proberen te maken.

    Gebeurtenis-id: 20051
    Gebeurtenisbron: OpsMgr-connector
    Beschrijving van gebeurtenis:
    Het opgegeven certificaat kan niet worden geladen omdat het certificaat momenteel niet geldig is. Controleer of de systeemtijd juist is en geef het certificaat indien nodig opnieuw uit%n Certificaat geldige begintijd: %1%n Certificaat geldige eindtijd: %2

    Gebeurtenisbron: ESE
    Gebeurteniscategorie: Transaction Manager
    Gebeurtenis-id: 623
    Beschrijving: HealthService (<PID>) Het versiearchief voor exemplaar<>("<name>") heeft de maximale grootte van <de waarde> Mb bereikt. Het is waarschijnlijk dat een langlopende transactie het opschonen van het versiearchief verhindert en dat deze groter wordt. Updates worden geweigerd totdat de langlopende transactie volledig is doorgevoerd of teruggedraaid. Mogelijke langlopende transactie:
    SessionId: <waarde>
    Sessiecontext: <waarde>
    ThreadId van sessiecontext: <waarde>.
    Opschonen: <waarde>

  3. Als u de volgende specifieke gebeurtenissen vindt, volgt u deze richtlijnen:

    • Gebeurtenissen 1102 en 1103: deze gebeurtenissen geven aan dat sommige werkstromen niet konden worden geladen. Als dit de belangrijkste systeemwerkstromen zijn, kunnen deze gebeurtenissen het probleem veroorzaken. In dit geval richt u zich op het oplossen van deze gebeurtenissen.

    • Gebeurtenissen 1104, 1105, 1106, 1107 en 1108: deze gebeurtenissen kunnen ertoe leiden dat gebeurtenissen 1102 en 1103 optreden. Meestal gebeurt dit vanwege onjuist geconfigureerde Uitvoeren als-accounts. De Uitvoeren als-accounts zijn bijvoorbeeld geconfigureerd voor gebruik met de verkeerde klasse of zijn niet geconfigureerd om te worden gedistribueerd naar de agent.

    • Gebeurtenis 4000: Deze gebeurtenis geeft aan dat het Monitoringhost.exe proces is vastgelopen. Als dit probleem wordt veroorzaakt door een DLL-fout of door ontbrekende registersleutels, kunt u het probleem mogelijk oplossen door de agent opnieuw te installeren. Als het probleem zich blijft voordoen, probeert u dit op te lossen met behulp van de volgende methoden:

      • Voer een procesmonitoropname uit totdat het proces vastloopt. Zie Procesmonitor v3.53 voor meer informatie.
      • Genereer een ADPlus-dump in de crashmodus. Zie AdPlus.vbs gebruiken voor het oplossen van problemen met 'vastlopen' en 'crashes' voor meer informatie
    • Gebeurtenis-id 21006: Deze gebeurtenis geeft aan dat er communicatieproblemen bestaan tussen de agent en de beheerserver. Als de agent een certificaat gebruikt voor wederzijdse verificatie, controleert u of het certificaat niet is verlopen en of de agent het juiste certificaat gebruikt. Als Kerberos wordt gebruikt, controleert u of de agent kan communiceren met Active Directory. Als verificatie correct werkt, kan dit betekenen dat de pakketten van de agent de beheerserver of gateway niet bereiken. Probeer een telnet tot stand te brengen naar poort 5723 van de agent naar de beheerserver. Voer bovendien een gelijktijdige netwerktracering uit tussen de agent en de beheerserver terwijl u de communicatiefouten reproduceert. Dit kan u helpen om te bepalen of de pakketten de beheerserver bereiken en of een apparaat tussen de twee onderdelen het verkeer probeert te optimaliseren of een aantal pakketten verwijdert. Zie Gegevens verzamelen met behulp van Network Monitor voor meer informatie.

    • Gebeurtenis-id 623: deze gebeurtenis vindt meestal plaats in een grote Operations Manager-omgeving waarin een beheerserver of agentcomputer veel werkstromen beheert. Zie Een of meer beheerservers en hun beheerde apparaten worden grijs weergegeven in de Operations Manager-console voor meer informatie.

Scenario 3

Alle agents die rapporteren aan een bepaalde beheerserver of gateway zijn niet beschikbaar.

Oplossing voor scenario 3

Volg deze stappen om het probleem in dit scenario op te lossen:

  1. Probeer te bepalen welk type workloads de beheerserver of gateway bewaakt. Dergelijke workloads kunnen netwerkapparaten, platformoverschrijdende agents, synthetische transacties, Windows-agents en computers zonder agent omvatten.

  2. Bepaal of de health-service wordt uitgevoerd op de beheerserver of gateway.

  3. Bepaal of de beheerserver wordt uitgevoerd in de onderhoudsmodus. Als dit nodig is, verwijdert u de server uit de onderhoudsmodus.

  4. Bekijk het Operations Manager-gebeurtenislogboek op de agent voor een van de gebeurtenissen die worden vermeld in Scenario 2. Als er gebeurtenis-id 21006 is, volgt u dezelfde richtlijnen die worden vermeld in Oplossing voor scenario 2. In dit geval geeft deze gebeurtenis ook aan dat de beheerserver of gateway niet kan communiceren met de bovenliggende server. Voor een gateway kan de bovenliggende server een beheerserver zijn. (Raadpleeg stap 3 in de Oplossing voor scenario 2.)

  5. Bekijk het Operations Manager-gebeurtenislogboek voor de volgende gebeurtenissen. Deze gebeurtenissen geven doorgaans aan dat er prestatieproblemen zijn op de beheerserver of Microsoft SQL Server die als host fungeert voor de OperationsManager of OperationsManagerDW database:

    Gebeurtenis-id: 2115
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    Een bindingsgegevensbron in beheergroep %1 heeft items in de werkstroom geplaatst, maar heeft in %5 seconden geen antwoord ontvangen. Dit geeft een prestatie- of functioneel probleem aan met de werkstroom.%n Werkstroom-id: %2%n Exemplaar: %3%n Exemplaar-id : %4%n

    Gebeurtenis-id: 5300
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis:
    De lokale gezondheidsservice is niet in orde. De wijzigingsstroom van de entiteitsstatus is vastgelopen met bevestiging in behandeling. %n%nManagementgroep: %2 %nManagementgroep-id: %1

    Gebeurtenis-id: 4506
    Gebeurtenisbron: HealthService
    Beschrijving van gebeurtenis: Operations Manager
    Gegevens zijn verwijderd vanwege te veel openstaande gegevens in regel %2 die bijvoorbeeld %3 wordt uitgevoerd met id:%4 in beheergroep %1.

    Gebeurtenis-id: 31551
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Kan geen gegevens opslaan in het datawarehouse. De bewerking wordt opnieuw geprobeerd.%rException %5: %6 %n%n Of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nManagementgroep: %1

    Gebeurtenis-id: 31552
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Kan geen gegevens opslaan in het datawarehouse.%rException %5: %6 %n%nOne of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nManagementgroep: %1

    Gebeurtenis-id: 31553
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Gegevens zijn naar het faseringsgebied van het datawarehouse geschreven, maar de verwerking is mislukt op een van de volgende bewerkingen.%rException %5: %6 %n%nOne of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nManagementgroep: %1

    Gebeurtenis-id: 31557
    Gebeurtenisbron: Health Service-modules
    Beschrijving van gebeurtenis:
    Kan de statusgegevens van het synchronisatieproces niet ophalen uit de datawarehouse-database. De bewerking wordt opnieuw geprobeerd.%rException %5: %6 %n%n Of meer werkstromen zijn hierdoor beïnvloed. %n%nWerkstroomnaam: %2 %nInstancenaam: %3 %nInstance-id: %4 %nManagementgroep: %1

  6. Gebeurtenis-id 3155X kan ook worden geregistreerd vanwege onjuiste Run As-accountconfiguraties of ontbrekende machtigingen voor de Uitvoeren als-accounts.

Notitie

Zie de sectie Oplossing voor scenario 4 om problemen met de prestaties van de beheerserver of gateway en SQL Server-prestaties op te lossen.

Scenario’s 4

Alle agents die rapporteren aan een specifieke beheerserver wisselen af en toe tussen gezonde en grijze statussen. Of alle agents in de omgeving wisselen af en toe tussen gezonde en grijze statussen.

Oplossing voor scenario 4

Als u het probleem wilt oplossen, moet u eerst de oorzaak van het probleem bepalen. Veelvoorkomende oorzaken van de niet-beschikbaarheid van de tijdelijke server zijn onder andere:

  • De bovenliggende server van de agents is tijdelijk offline.
  • Agents overspoelen de beheerserver met operationele gegevens, zoals waarschuwingen, statussen, ontdekkingen, enzovoort. Dit kan leiden tot een verhoogd gebruik van systeembronnen in de Operations Manager-database en op de Operations Manager-servers.
  • Netwerkstoringen hebben een tijdelijke communicatiefout veroorzaakt tussen de bovenliggende server en de agents.
  • Wijzigingen in management pack (MP) zijn opgetreden. In de Operations Manager-console vereisen deze wijzigingen een Operations Manager-configuratie en een MP-herdistributie aan de agents. Als de wijziging van invloed is op een grotere agentbasis, kan dit leiden tot een verhoogd gebruik van systeemresources op de Operations Manager-database en Operations Manager-servers.

De sleutel tot het oplossen van problemen in deze scenario's is het begrijpen van de duur van de niet-beschikbaarheid van de server en het tijdstip van de dag waarop deze heeft plaatsgevonden. Dit helpt u om het bereik van het probleem snel te beperken.

Problemen met managementserver- en gatewayprestaties oplossen

Beheerserver

Tijdens een burst van een configuratie-update (die wordt veroorzaakt door MP-import en -detectie), zijn de typische knelpunten, eerst, de CPU en de tweede, de I/O van de Operations Manager-installatieschijf. De beheerserver is verantwoordelijk voor het doorsturen van configuratiebestanden naar de doelagents.

Voor het verzamelen van operationele gegevens worden knelpunten meestal veroorzaakt door de CPU. De schijf-I/O kan ook de maximale capaciteit hebben bereikt, maar dat is niet zo waarschijnlijk. De beheerserver is verantwoordelijk voor het decomprimeren en ontsleutelen van binnenkomende operationele gegevens en het invoegen ervan in de operationele database. De beheerserver verzendt na ontvangst van de operationele gegevens ook bevestigingen naar de agents of gateways en maakt gebruik van schijfwachtlijsten om deze uitgaande bevestigingen tijdelijk op te slaan.

Gateway

De gateway is zowel CPU-gebonden als I/O-gebonden. Wanneer de gateway een grote hoeveelheid gegevens doorgeeft, kunnen zowel de CPU- als I/O-bewerkingen een hoog gebruik vertonen. Het grootste deel van het CPU-gebruik wordt veroorzaakt door de decompressie, compressie, versleuteling en ontsleuteling van de binnenkomende gegevens, en ook door de overdracht van die gegevens. Alle gegevens die door de gateway en van de agents worden ontvangen, worden opgeslagen in een permanente wachtrij op schijf en worden gelezen en doorgestuurd naar de beheerserver door de Gateway Health-service. Dit kan intensief schijfgebruik veroorzaken. Dit gebruik kan aanzienlijk zijn wanneer de gateway tijdelijk offline wordt genomen en vervolgens verzamelde agentgegevens moet verwerken die door de agents zijn gegenereerd en geprobeerd te verzenden wanneer de gateway nog offline was.

Als u het probleem in deze situatie wilt oplossen, verzamelt u de volgende informatie voor elke betrokken beheerserver of gateway:

  • De exacte Windows-versie, de editie en het buildnummer

  • Het aantal processors

  • De hoeveelheid RAM

  • Station dat de map Health Service State bevat

  • Of de antivirussoftware is geconfigureerd om het Health Service-archief uit te sluiten

  • RAID-niveau (0, 1, 5of 1+00+1 ) voor het station dat wordt gebruikt door de Health Service-status

  • Aantal schijven dat wordt gebruikt voor de RAID

  • Of schrijfcache met batterijsteun is ingeschakeld op de matrixcontroller

Prestatieproblemen met SQL Server oplossen

Operationele database (OperationsManager)

Voor de OperationsManager-database is het meest waarschijnlijke knelpunt de schijfmatrix. Als niet de maximale I/O-capaciteit van de schijfmatrix wordt gebruikt, is het volgende waarschijnlijke knelpunt de CPU. De database ondervindt af en toe vertragingen en stormen van operationele gegevens (hoge aantallen gebeurtenissen, waarschuwingen en prestatiegegevens of statuswijzigingen die relatief lang aanhouden). Een korte burst veroorzaakt doorgaans geen aanzienlijke vertraging voor lange tijd.

Tijdens het invoegen van operationele gegevens worden de databaseschijven voornamelijk gebruikt voor schrijfbewerkingen. Het CPU-gebruik wordt veroorzaakt door SQL Server-verloop. Dit kan gebeuren bij grote en complexe query's, zware gegevensinvoeging en het opschonen van grote tabellen (dat standaard om middernacht plaatsvindt). Normaal gesproken worden bij het opschonen van zelfs grote gebeurtenissen en prestatiegegevenstabellen geen overmatige CPU- of schijfresources verbruikt. Het opschonen van de waarschuwings- en statuswijzigingstabellen kan echter wel CPU-intensief zijn voor grote tabellen.

De database is ook CPU-gebonden wanneer er configuratieherdistributiebursts mee worden verwerkt, die worden veroorzaakt door MP-import of door een grote wijziging van de exemplaarruimte. In deze gevallen wordt door de Config-service een query op de database uitgevoerd voor de nieuwe agentconfiguratie. Dit veroorzaakt meestal CPU-pieken in de database voordat de configuratie-updates naar de agents worden verzonden.

Datawarehouse (OperationsManagerDW)

Voor de OperationsManagerDW-database is het meest waarschijnlijke knelpunt de schijfmatrix. Dit is meestal het geval vanwege grote invoegingen van operationele gegevens. In die gevallen worden er vooral schrijfbewerkingen uitgevoerd op de schijven. Normaal gesproken worden er weinig leesbewerkingen uitgevoerd op de schijven, behalve om handmatig gegenereerde rapportageweergaven te verwerken. Hiervoor worden namelijk query's op de datawarehouse uitgevoerd.

Het CPU-gebruik wordt veroorzaakt door SQL Server-verloop. CPU-pieken kunnen optreden tijdens zware partitioneringsactiviteiten (wanneer tabellen groot worden en vervolgens worden gepartitioneerd), de generatie van complexe rapporten en grote hoeveelheden waarschuwingen in de database, waarbij de datawarehouse voortdurend moet worden gesynchroniseerd.

Algemene probleemoplossing

Als u het probleem in deze situatie wilt oplossen, verzamelt u de volgende informatie voor elke betrokken beheerserver of gateway:

  • De exacte Windows-versie, de editie en het buildnummer

  • Het aantal processors

  • De hoeveelheid RAM

  • De hoeveelheid geheugen die is toegewezen aan SQL Server

  • Of SQL Server 32-bits is en AWE is ingeschakeld

    U kunt het grootste deel van deze informatie vinden in SQL Server Management Studio of in SQL Server Enterprise Manager. U doet dit door het venster Eigenschappen van de server te openen en vervolgens de tabbladen Algemeen en Geheugen te selecteren. Het tabblad Algemeen bevat de SQL Server-versie, de Windows-versie, het platform, de hoeveelheid RAM en het aantal processors. Het tabblad Geheugen bevat het geheugen dat is toegewezen aan SQL Server. In Microsoft SQL Server 2008 bevat het tabblad Geheugen ook de AWE-optie.

    Als het besturingssysteem 32-bits is en de RAM 4 GB of hoger is, controleert u of schakeloptie /pae of /3gb aanwezig is in het Boot.ini- bestand. Deze opties kunnen onjuist zijn geconfigureerd als de server oorspronkelijk is geïnstalleerd met 4 GB of minder aan RAM en later RAM is toegevoegd.

    Voor 32-bits servers met 4 GB aan RAM wordt de hoeveelheid geheugen die door SQL Server kan worden verwerkt, verhoogd (van 2 GB naar 3 GB) door switch /3gb in Boot.ini. Voor 32-bits servers met meer dan 4 GB aan RAM kan de hoeveelheid geheugen die door SQL Server kan worden verwerkt, worden beperkt door switch /3gb in Boot.ini. Voor deze systemen voegt u de switch /pae toe aan Boot.ini en schakelt u AWE in SQL Server in.

    Schakel op een systeem met meerdere processoren de instelling Maximale mate van parallellisme (MAXDOP) in. In SQL Server 2008 bevindt deze optie zich op het tabblad Geavanceerd in het dialoogvenster Eigenschappen voor de server.

    De standaardwaarde is 0. Dit betekent dat alle beschikbare processors worden gebruikt. Een instelling van 0 is prima voor servers met acht of minder processors. Voor servers met meer dan acht processors kan de tijd die nodig is voor SQL Server om het gebruik van alle processors te coördineren contraproductief zijn. Voor servers met meer dan acht processors kunt u Maximale mate van parallellisme daarom gewoonlijk het beste instellen op 8. Voer hiervoor de volgende opdracht uit in SQL Query Analyzer:

    sp_configure 'show advanced options', 1
    GO
    RECONFIGURE WITH OVERRIDE
    GO
    sp_configure 'max degree of parallelism', 8
    GO
    RECONFIGURE WITH OVERRIDE
    GO
    
  • Stationsletters die datawarehouse-, Operations Manager DB- en Tempdb-bestanden bevatten

  • Of de antivirussoftware is geconfigureerd voor het uitsluiten van SQL-gegevens en logboekbestanden (door het scannen van SQL Server-databasebestanden met antivirussoftware kunnen de prestaties afnemen.)

  • Hoeveelheid vrije ruimte op stations die datawarehouse-, Operations Manager DB- en Tempdb-bestanden bevatten

  • Het opslagtype (SAN of lokaal)

  • Het RAID-niveau (0, 1, 5, 0+1 of 1+0) voor stations die worden gebruikt door SQL Server

  • Als SAN-opslag wordt gebruikt: het aantal aandrijfasssen op elke LUN die wordt gebruikt door SQL Server

  • Als het geconverteerde Exchange 2007-management pack wordt gebruikt of ooit is gebruikt: het aantal rijen in de tabel in de LocalizedText Operations Manager-database en in de EventPublisher tabel in de datawarehouse-database

    Voer de volgende opdrachten uit om het aantal rijen te bepalen:

    USE OperationsManager SELECT COUNT(*) FROM LocalizedText
    USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
    

Tellers voor het identificeren van geheugendruk

Naam van prestatiemeteritems Beschrijving
MSSQL$<instance>: Bufferbeheer: levensverwachting van pagina Hoe lang pagina's aanwezig blijven in de buffergroep. Als deze waarde lager is dan 300 seconden, kan dit erop wijzen dat de server meer geheugen kan gebruiken. Het kan ook het gevolg zijn van indexfragmentatie.
MSSQL$<instance>: Bufferbeheer: luie schrijfbewerkingen per seconde Door de vertraagde writer wordt ruimte vrijgemaakt in de buffer door pagina's naar schijf te verplaatsen. Het is gewoonlijk het beste als de waarde niet consistent hoger is dan 20 schrijfbewerkingen per seconde. In het ideale geval ligt deze waarde dicht bij nul.
Memory: Available Mbytes Lagere waarden dan 100 MB kunnen wijzen op geheugendruk. Geheugendruk is duidelijk aanwezig wanneer dit getal lager is dan 10 MB.
Process: Private Bytes: _Total Dit is de hoeveelheid geheugen (fysiek en pagina's) die door alle processen bij elkaar wordt gebruikt.
Process: Working Set: _Total Dit is de hoeveelheid fysiek geheugen die door alle processen bij elkaar wordt gebruikt. Als de waarde voor deze teller aanzienlijk lager is dan de waarde voor Process: Private Bytes: _Total, geeft dit aan dat het wisselgeheugengebruik voor deze processen te zwaar is. Een verschil van meer dan 10% is waarschijnlijk significant.

Tellers voor het identificeren van schijfdruk

Leg de volgende tellers voor fysieke schijven vast voor alle stations die SQL-gegevens of logboekbestanden bevatten:

  • % Niet-actieve tijd: hoeveel inactieve tijd er voor de schijf wordt gerapporteerd. Alles onder de 50 procent kan duiden op een schijfknelpunt.

  • Avg. Disk Queue Length: deze waarde mag niet groter zijn dan tweemaal het aantal aandrijfassen op een LUN. Als een LUN bijvoorbeeld 25 aandrijfassen heeft, is een waarde van 50 acceptabel. Als een LUN echter 10 aandrijfassen heeft, is een waarde van 25 te hoog. U kunt de volgende formules gebruiken op basis van het RAID-niveau en het aantal schijven in de RAID-configuratie:

    • RAID 0: alle schijven zijn werkzaam in een RAID 0-set

    • Gemiddelde lengte van< schijfwachtrij= # (schijven in de matrix) *2

    • RAID 1: de helft van de schijven zijn werkzaam waardoor slechts de helft ervan kan worden meegeteld voor de schijfwachtrij

    • Gemiddelde lengte van< schijfwachtrij= # (schijven in de matrix/2) *2

    • RAID 10: de helft van de schijven zijn werkzaam waardoor slechts de helft ervan kan worden meegeteld voor de schijfwachtrij

    • Gemiddelde lengte van< schijfwachtrij= # (schijven in de matrix/2) *2

    • RAID 5: alle schijven zijn werkzaam in een RAID 5-set

    • Gemiddelde lengte van< schijfwachtrij= # Schijven in de matrix *2

    • Avg. Disk sec/Transfer: het aantal seconden dat nodig is om één schijf-I/O te voltooien

    • Avg. Disk sec/Read: de gemiddelde tijd in seconden om gegevens van de schijf te lezen

    • Avg. Disk sec/Write: de gemiddelde tijd in seconden om gegevens naar de schijf te schrijven

      De laatste drie tellers in deze lijst moeten consistent waarden hebben van ongeveer .020 (20 ms) of lager en mogen nooit hoger zijn dan .050 (50 ms). De volgende waarden zijn drempelwaarden die worden beschreven in de Handleiding voor het oplossen van problemen met SQL Server-prestaties:

      • Lager dan 10 ms: zeer goed
      • Tussen 10 - 20 ms: redelijk
      • Tussen 20 - 50 ms: traag, vereist aandacht
      • Hoger dan 50 ms: ernstig I/O-knelpunt
    • Disk Bytes/sec: het aantal bytes dat per seconde wordt overgedragen van of naar de schijf

    • Disk Transfers/sec: het aantal invoer- en uitvoerbewerkingen per seconde (IOPS)

    Wanneer % Idle Time laag is (10 procent of minder), betekent dit dat de schijf volledig wordt gebruikt. In dit geval geven de laatste twee tellers in deze lijst (Disk Bytes/sec en Disk Transfers/sec) een goede indicatie van de maximale doorvoer van het station, achtereenvolgens in bytes en in IOPS. De doorvoer van een SAN-station is zeer variabel, afhankelijk van het aantal aandrijfassen, de snelheid van de stations en de snelheid van het kanaal. Het is het beste om bij de SAN-leverancier te achterhalen hoeveel bytes en IOPS het station moet ondersteunen. Als % Idle Time laag is en de waarden voor deze twee tellers niet voldoen aan de verwachte doorvoer van het station, vraagt u de SAN-leverancier om hulp bij het oplossen van het probleem.

Handleiding voor het oplossen van problemen met SQL Server-prestaties biedt meer inzicht in het oplossen van problemen met SQL Server-prestaties.

Operations Manager-prestatiemeteritems

In de volgende secties worden de prestatiemeteritems beschreven die u kunt gebruiken om de prestaties van Operations Manager te bewaken en op te lossen.

Gatewayserverfunctie

Algemene prestatiemeteritems

Deze tellers geven de algehele prestaties van de gateway aan:

Naam van prestatiemeteritems
Processor(_Total)\% processortijd
Geheugen\% vastgelegde bytes in gebruik
Netwerkinterface(*)\bytes in totaal/sec
LogicalDisk(*)\% niet-actieve tijd
LogicalDisk(*)\Avg. Lengte van schijfwachtrij
Algemene prestatiemeteritems voor Operations Manager-processen

Deze tellers geven de algehele prestaties van Operations Manager-processen op de gateway aan:

Naam van prestatiemeteritems Beschrijving
Process(HealthService)\% processortijd
Process(HealthService)\Private Bytes Afhankelijk van het aantal agents dat door deze gateway wordt beheerd, kan dit aantal variëren en kan dit aantal enkele honderden megabytes zijn
Process(HealthService)\Thread Count
Process(HealthService)\Virtual Bytes
Process(HealthService)\Working Set
Process(MonitoringHost*)\% processortijd
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtual Bytes
Process(MonitoringHost*)\Working Set
Specifieke prestatiemeteritems van Operations Manager

Deze tellers zijn specifieke tellers van Operations Manager die de prestaties van specifieke aspecten van Operations Manager op de gateway aangeven:

Naam van prestatiemeteritems Beschrijving
Health Service\Workflow Count
Health Service Management Groups(*)\Active File Uploads Het aantal bestandsoverdrachten dat door deze gateway wordt verwerkt. Dit vertegenwoordigt het aantal management pack-bestanden dat naar agents wordt geüpload. Als deze waarde lange tijd op een hoog niveau blijft en er op een bepaald moment niet veel management packs worden geïmporteerd, kunnen deze voorwaarden leiden tot een probleem dat van invloed is op de bestandsoverdracht.
Health Service Management Groups(*)\Send Queue % Used De grootte van de permanente wachtrij. Als deze waarde lange tijd hoger dan 10 blijft en niet daalt, geeft dit aan dat er een back-up van de wachtrij wordt gemaakt. Deze voorwaarde wordt veroorzaakt door een overbelast Operations Manager-systeem omdat de beheerserver of -database te druk is of offline is.
OpsMgr Connector\Bytes Received Het aantal netwerkbytes dat door de gateway is ontvangen, dat wil gezegd het aantal binnenkomende bytes vóór decompressie.
OpsMgr Connector\Bytes Transmitted Het aantal netwerkbytes dat door de gateway is verzonden, dat wil gezegd het aantal uitgaande bytes na compressie.
OpsMgr Connector\Data Bytes Received Het aantal gegevensbytes dat door de gateway is ontvangen, dat wil gezegd de hoeveelheid binnenkomende gegevens na decomprimatie.
OpsMgr Connector\Data Bytes Transmitted Het aantal gegevensbytes dat door de gateway wordt verzonden, dat wil gezegd de hoeveelheid uitgaande gegevens vóór compressie.
OpsMgr Connector\Open Connections Het aantal verbindingen dat is geopend op de gateway. Dit nummer moet hetzelfde zijn als het aantal agents of beheerservers dat rechtstreeks is verbonden met de gateway.

Beheerserverfunctie

Algemene prestatiemeteritems

Deze prestatiemeteritems geven de algehele prestaties van de beheerserver aan:

Naam van prestatiemeteritems
Processor(_Total)\% processortijd
Geheugen\% vastgelegde bytes in gebruik
Netwerkinterface(*)\bytes in totaal/sec
LogicalDisk(*)\% niet-actieve tijd
LogicalDisk(*)\Avg. Lengte van schijfwachtrij
Algemene prestatiemeteritems voor Operations Manager-processen

Deze tellers geven de algehele prestaties van Operations Manager-processen op de beheerserver aan:

Naam van prestatiemeteritems Beschrijving
Process(HealthService)\% processortijd
Process(HealthService)\Private Bytes Afhankelijk van het aantal agents dat door deze beheerserver wordt beheerd, kan dit aantal variëren en enkele honderden megabytes zijn.
Process(HealthService)\Thread Count
Process(HealthService)\Virtual Bytes
Process(HealthService)\Working Set
Process(MonitoringHost*)\% processortijd
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtual Bytes
Process(MonitoringHost*)\Working Set
Specifieke prestatiemeteritems van Operations Manager

Deze tellers zijn specifieke tellers van Operations Manager die de prestaties aangeven van specifieke aspecten van Operations Manager op de beheerserver:

Naam van prestatiemeteritems Beschrijving
Health Service\Workflow Count Het aantal werkstromen dat wordt uitgevoerd op deze beheerserver.
Health Service Management Groups(*)\Active File Uploads Het aantal bestandsoverdrachten dat door deze beheerserver wordt verwerkt. Dit vertegenwoordigt het aantal management pack-bestanden dat naar agents wordt geüpload. Als deze waarde lange tijd op een hoog niveau blijft en er op een bepaald moment niet veel management packs worden geïmporteerd, kunnen deze voorwaarden leiden tot een probleem dat van invloed is op de bestandsoverdracht.
Health Service Management Groups(*)\Send Queue % Used De grootte van de permanente wachtrij. Als deze waarde lange tijd hoger dan 10 blijft en niet daalt, geeft dit aan dat er een back-up van de wachtrij wordt gemaakt. Deze voorwaarde wordt veroorzaakt door een overbelast Operations Manager-systeem omdat het Operations Manager-systeem (bijvoorbeeld de hoofdbeheerserver) bezet is of offline is.
Health Service Management Groups(*)\Bind Data Source Item Drop Rate Het aantal gegevensitems dat door de beheerserver is verwijderd voor schrijfacties voor de database of de datawarehouse-gegevensverzameling. Als deze tellerwaarde niet 0is, wordt de beheerserver of database overbelast omdat het binnenkomende gegevensitem niet snel genoeg kan worden verwerkt of omdat er een burst van een gegevensitem optreedt. De verwijderde gegevensitems worden opnieuw verzonden door agents. Als de overbelasting of burstsituatie voorbij is, worden deze gegevensitems ingevoegd in de database of in het datawarehouse.
Health Service Management Groups(*)\Bind Data Source Item Incoming Rate Het aantal gegevensitems dat door de beheerserver is ontvangen voor schrijfacties voor de database of de datawarehouse-gegevensverzameling.
Health Service Management Groups(*)\Bind Data Source Item Post Rate Het aantal gegevensitems dat door de beheerserver is geschreven in de database of de datawarehouse-gegevensverzameling voor schrijfacties voor de gegevensverzameling.
OpsMgr Connector\Bytes Received Het aantal netwerkbytes dat is ontvangen door de beheerserver, ofwel de grootte van binnenkomende bytes vóór decompressie.
OpsMgr Connector\Bytes Transmitted Het aantal netwerkbytes dat is verzonden door de beheerserver, ofwel de grootte van uitgaande bytes na compressie.
OpsMgr Connector\Data Bytes Received Het aantal gegevensbytes dat door de beheerserver is ontvangen, dat wil gezegd de grootte van binnenkomende gegevens na decomprimeren.
OpsMgr Connector\Data Bytes Transmitted Het aantal gegevensbytes dat door de beheerserver wordt verzonden, dat wil gezegd de grootte van uitgaande gegevens vóór compressie.
OpsMgr Connector\Open Connections Het aantal verbindingen dat is geopend op de beheerserver. Dit moet hetzelfde zijn als het aantal agents of hoofdbeheerservers die er rechtstreeks mee zijn verbonden.
OpsMgr database Write Action Modules(*)\Avg. Batch Size Het aantal gegevensitems of batches dat is ontvangen door databaseschrijfactiemodules. Als dit getal 5000 is, treedt er een gegevensitemburst op.
OpsMgr DB Write Action Modules(*)\Avg. Processing Time Het aantal seconden dat een databaseschrijfactiemodule nodig heeft om een batch in de database in te voegen. Als dit aantal vaak groter is dan 60, treedt er een probleem met de invoegingsprestaties op voor de database.
OpsMgr DW Writer Module(*)\Avg. Batch Processing Time, ms Het aantal milliseconden voor schrijfacties van het datawarehouse om een batch gegevensitems in te voegen in een datawarehouse.
OpsMgr DW Writer Module(*)\Avg. Batch Size Het gemiddelde aantal gegevensitems of batches dat is ontvangen door schrijfactiemodules van het datawarehouse.
OpsMgr DW Writer Module(*)\Batches/sec Het aantal batches dat per seconde is ontvangen door schrijfactiemodules van het datawarehouse.
OpsMgr DW Writer Module(*)\Data Items/sec Het aantal batches dat per seconde is ontvangen door schrijfactiemodules van het datawarehouse.
OpsMgr DW Writer Module(*)\Dropped Data Item Count Het aantal gegevensitems dat is verwijderd door schrijfactiemodules van het datawarehouse.
OpsMgr DW Writer Module(*)\Total Error Count Het aantal fouten dat is opgetreden in schrijfactiemodules van het datawarehouse.