Dela via


Felsöka grå agenttillstånd i System Center Operations Manager

Den här artikeln beskriver hur du felsöker problem där en agent, en hanteringsserver eller en gateway inte är tillgänglig eller nedtonad i System Center Operations Manager (OpsMgr).

Ursprunglig produktversion: Microsoft System Center 2012 Operations Manager
Ursprungligt KB-nummer: 2288515

En agent, en hanteringsserver eller en gateway kan ha något av följande tillstånd, vilket indikeras av färgen på agentnamnet och ikonen i fönstret Övervakning .

Tillstånd Utseende Beskrivning
Felfri Grön bockmarkering Agenten eller Management-servern körs normalt.
Kritiskt Röd bockmarkering Det finns ett problem på agenten eller Management-servern.
Okänt Namn på grå agent, grå bockmarkering Den hälsotjänstövervakare på Management-servern som övervakar hälsotjänsten på den övervakade datorn får inte längre några pulsslag från agenten. Hälsotjänstövervakaren hade fått pulsslag tidigare och tillståndet rapporterades som felfritt. Det innebär också att Management-serverna inte längre tar emot någon information från agenten.

Det här problemet kan inträffa om datorn som kör agenten inte körs eller om det finns anslutningsproblem.
Okänt Grön cirkel, ingen bockmarkering Statusen för det identifierade objektet är okänd. Det finns ingen tillgänglig övervakare för det här specifika identifierade objektet.

Orsaker till ett grått tillstånd

En agent, en Management-server eller en gateway kan bli otillgänglig av någon av följande orsaker:

  • Pulsslagsfel
  • Ogiltig konfiguration
  • Fel i systemarbetsflöden
  • Prestandaproblem för Operations Manager-databas eller Data Warehouse
  • Prestandaproblem för hanterings- eller gateway-server
  • Nätverks- eller autentiseringsproblem
  • Hälsotillståndstjänsten körs inte

Problemomfång

Innan du börjar felsöka problemet med den nedtonade agenten bör du först förstå Operations Manager-topologin och sedan definiera problemets omfattning. Följande frågor kan hjälpa dig att definiera problemets omfattning:

  • Hur många agenter påverkas?
  • Har agenterna problem i samma nätverkssegment?
  • Rapporterar agenterna till samma hanteringsserver?
  • Hur ofta anger och förblir agenterna i ett grått tillstånd?
  • Hur återställer du vanligtvis från den här situationen (till exempel starta om agenthälsotjänsten, rensa cachen, förlita dig på automatisk återställning)?
  • Genereras pulsslagsfelaviseringar för dessa agenter?
  • Uppstår det här problemet under en viss tid på dagen?
  • Kvarstår problemet om du redundansväxlar dessa agenter till en annan hanteringsserver eller gateway?
  • När började detta problem?
  • Gjordes några ändringar i agenterna, hanteringsservrarna eller gatewayen eller hanteringsgruppen?
  • Är de berörda agenterna Windows-klustrade system?
  • Är mappen Hälsotjänst State undantagen från antivirusgenomsökning?

Felsökningsstrategi

Din felsökningsstrategi styrs av vilken komponent som är inaktiv, var komponenten ligger inom topologin och hur omfattande problemet är. Överväg följande villkor:

  • Om agenterna som rapporterar till en viss hanteringsserver eller gateway inte är tillgängliga bör felsökningen börja på hanteringsserver- eller gatewaynivå.
  • Om gatewayerna som rapporterar till en viss hanteringsserver inte är tillgängliga bör felsökningen börja på hanteringsservernivå.
  • För agentlösa system, för nätverksenheter och för Unix- och Linux-servrar bör felsökningen starta på agenten, hanteringsservern eller gatewayen som övervakar dessa objekt.
  • Felsökningen börjar vanligtvis på nivån omedelbart ovanför den otillgängliga komponenten.

Scenario 1

Endast ett fåtal agenter påverkas av problemet. Dessa agenter rapporterar till olika hanteringsservrar. Agenter förblir otillgängliga regelbundet. Även om du kan rensa agentcacheminnet för att lösa problemet tillfälligt, uppstår problemet igen efter några dagar.

Lösning för scenario 1

Lös problemet i det här scenariot genom att följa dessa steg:

  1. Använd lämplig snabbkorrigering på de berörda operativsystemen.
  2. Undanta agentcachen från antivirusgenomsökning. Mer information finns i Rekommendationer för antivirusundantag som är relaterade till Operations Manager.
  3. Stoppa hälsotjänsten.
  4. Rensa agentcachen.
  5. Starta hälsotjänsten.

Scenario 2

Endast ett fåtal agenter påverkas av problemet. Dessa agenter rapporterar till olika hanteringsservrar. Agenter förblir inaktiva hela tiden. Även om du kan rensa agentcachen löser detta inte problemet.

Lösning för scenario 2

Lös problemet i det här scenariot genom att följa dessa steg:

  1. Avgör om hälsotjänsten är aktiverad och körs för närvarande på hanteringsservern eller gatewayen. Om hälsotjänsten har slutat svara genererar du en ADPlus-dump i ett tjänstlåsningsläge för att fastställa orsaken till problemet. Mer information finns i Så här använder du ADPlus.vbs för att felsöka "låser sig" och "kraschar"

  2. Granska Operations Manager-händelseloggen på agenten för att hitta någon av följande händelser:

    Händelse-ID 1102
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Regeln/övervakaren %4 som körs för instansen %3 med id:"%2" kan inte initieras och läses inte in. Hanteringsgrupp %1

    Händelse-ID 1103
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Sammanfattning: %2 regler/övervakare misslyckades och lossades. %3 av dem nådde den felgräns som förhindrar automatisk inläsning. Hanteringsgrupp %1. Det här är bara en sammanfattning av en händelse. Se andra händelser med beskrivningar av inaktiverade regler/övervakare.

    Händelse-ID 1104
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Det går inte att matcha RunAs-profilen i arbetsflödet %4 som körs för instansen %3 med ID:%2. Arbetsflödet läses inte in. Hanteringsgrupp %1

    Händelse-ID 1105
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Ange matchningsfel för RunAs-profilen i arbetsflödet %4, som körs för instansen %3 med ID:%2. Arbetsflödet läses inte in. Hanteringsgrupp %1

    Händelse-ID 1106
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Det går inte att komma åt RunAs-profilen för oformaterad text i arbetsflödet %4, som körs för instansen %3 med ID:%2. Arbetsflödet läses inte in. Hanteringsgrupp %1

    Händelse-ID 1107
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Kontot för RunAs-profilen i arbetsflödet %4 som körs för instansen %3 med id:%2 har inte definierats. Arbetsflödet läses inte in. Associera ett konto med profilen. Hanteringsgrupp %1

    Händelse-ID 1108
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Det går inte att matcha ett konto som anges i Kör som-profilen %7. Kontot används specifikt i åsidosättning för säker referens %6. %n%n Det kan bero på att kontot inte är konfigurerat för att distribueras på den här datorn. Lös problemet genom att öppna den angivna Kör som-profilen nedan, leta upp kontoposten som den anges av SSID-numret och välj att antingen distribuera kontot på den här datorn om det är lämpligt, eller ändra inställningen i profilen så att målobjektet inte använder det kontot. %n%nHanteringsgrupp: %1 %nRunAs-profil: %7 %nNamn på åsidosättning för säker referens: %6 %nID för åsidosättning för säker referens: %4 %nObjektnamn: %3 %nObjekt-ID: %2 %nKonto-SSID: %5

    Händelse-ID: 4000
    Händelsekälla: HealthService
    Händelsebeskrivning:
    En övervakningsvärd svarar inte eller har kraschat. Statuskoden för värdfelet var %1.

    Händelse-ID: 21016
    Händelsekälla: OpsMgr Connector
    Händelsebeskrivning:
    OpsMgr kunde inte konfigurera en kommunikationskanal till %1 och det finns inga redundansvärdar. Kommunikationen återupptas när %1 är tillgänglig och kommunikation från den här datorn tillåts.

    Händelse-ID: 21006
    Händelsekälla: OpsMgr Connector
    Händelsebeskrivning:
    OpsMgr-anslutningsappen kunde inte ansluta till %1:%2. Felkoden är %3(%4). Kontrollera att det finns en nätverksanslutning, att servern körs och har registrerat dess lyssningsport och att det inte finns några brandväggar som blockerar trafiken till målet.

    Händelse-ID: 20070
    Händelsekälla: OpsMgr Connector
    Händelsebeskrivning:
    OpsMgr-anslutningsappen är ansluten till %1, men anslutningen stängdes omedelbart efter att autentiseringen inträffade. Den troligaste orsaken till det här felet är att agenten inte har behörighet att kommunicera med servern, eller att servern inte har fått någon konfiguration. Kontrollera händelseloggen på servern om det finns 20000 händelser som anger att agenter som inte är godkända försöker ansluta.

    Händelse-ID: 20051
    Händelsekälla: OpsMgr Connector
    Händelsebeskrivning:
    Det gick inte att läsa in det angivna certifikatet eftersom certifikatet för närvarande inte är giltigt. Kontrollera att systemtiden är korrekt och utfärda certifikatet igen om det behövs%n Certifikatets giltiga starttid: %1%n Certifikatets giltiga sluttid: %2

    Händelsekälla: ESE
    Händelsekategori: Transaction Manager
    Händelse-ID: 623
    Beskrivning: HealthService (<PID>) Versionsarkivet för instansinstansen<>("<name>") har nått sin maximala storlek på< värdet> Mb. Det är troligt att en långvarig transaktion förhindrar rensning av versionsarkivet och gör att det byggs upp i storlek. Uppdateringar avvisas tills den långvariga transaktionen har checkats in helt eller återställts. Möjlig tidskrävande transaktion:
    SessionId: <värde>
    Sessionskontext: <värde>
    Session-context ThreadId: <value>.
    Rensning: <värde>

  3. Om du hittar följande specifika händelser följer du dessa riktlinjer:

    • Händelser 1102 och 1103: Dessa händelser anger att vissa av arbetsflödena inte kunde läsas in. Om det här är de viktigaste systemarbetsflödena kan dessa händelser orsaka problemet. I så fall fokuserar du på att lösa dessa händelser.

    • Händelse 1104, 1105, 1106, 1107 och 1108: Dessa händelser kan göra att händelserna 1102 och 1103 inträffar. Troligtvis på grund av att Kör som-kontona är felaktigt konfigurerade. Kör som-kontona kan till exempel ha konfigurerats för att användas med fel klass, eller så har de inte konfigurerats för att distribueras till agenten.

    • Händelse 4000: Den här händelsen anger att Monitoringhost.exe processen kraschade. Om det här problemet orsakas av ett DLL-matchningsfel eller av saknade registernycklar kanske du kan lösa problemet genom att installera om agenten. Om problemet kvarstår kan du försöka lösa det med hjälp av följande metoder:

    • Händelse-ID 21006: Den här händelsen anger att kommunikationsproblem finns mellan agenten och hanteringsservern. Om agenten använder ett certifikat för ömsesidig autentisering kontrollerar du att certifikatet inte har upphört att gälla och att agenten använder rätt certifikat. Om Kerberos används kontrollerar du att agenten kan kommunicera med Active Directory. Om autentiseringen fungerar korrekt kan det innebära att paketen från agenten inte når hanteringsservern eller gatewayen. Försök att upprätta ett telnet till port 5723 från agenten till hanteringsservern. Kör dessutom en samtidig nätverksspårning mellan agenten och hanteringsservern medan du återskapar kommunikationsfelen. Detta kan hjälpa dig att avgöra om paketen når hanteringsservern och om någon enhet mellan de två komponenterna försöker optimera trafiken eller släpper vissa paket. Mer information finns i Samla in data med hjälp av Network Monitor.

    • Händelse-ID 623: Den här händelsen inträffar vanligtvis i en stor Operations Manager-miljö där en hanteringsserver eller en agentdator hanterar många arbetsflöden. Mer information finns i En eller flera hanteringsservrar och deras hanterade enheter är nedtonade i Operations Manager-konsolen.

Scenario 3

Alla agenter som rapporterar till en viss hanteringsserver eller gateway är inte tillgängliga.

Lösning för scenario 3

Lös problemet i det här scenariot genom att följa dessa steg:

  1. Försök att avgöra vilken typ av arbetsbelastningar som hanteringsservern eller gatewayen övervakar. Sådana arbetsbelastningar kan omfatta nätverksenheter, plattformsoberoende agenter, syntetiska transaktioner, Windows-agenter och agentlösa datorer.

  2. Avgör om hälsotjänsten körs på hanteringsservern eller gatewayen.

  3. Kontrollera om hanteringsservern körs i underhållsläge. Om det behövs tar du bort servern från underhållsläget.

  4. Granska Operations Manager-händelseloggen på agenten för någon av de händelser som visas i scenario 2. Om det finns händelse-ID 21006 följer du samma riktlinjer som nämns i Lösning för scenario 2. I det här fallet indikerar den här händelsen dessutom att hanteringsservern eller gatewayen inte kan kommunicera med den överordnade servern. För en gateway kan den överordnade servern vara vilken hanteringsserver som helst. (Se steg 3 i Lösning för scenario 2.)

  5. Granska Operations Manager-händelseloggen och leta efter följande händelser. Dessa händelser indikerar vanligtvis att prestandaproblem finns på hanteringsservern eller Microsoft SQL Server som är värd för OperationsManager eller OperationsManagerDW databasen:

    Händelse-ID: 2115
    Händelsekälla: HealthService
    Händelsebeskrivning:
    En bindningsdatakälla i hanteringsgruppen %1 har publicerat objekt i arbetsflödet, men har inte fått något svar på %5 sekunder. Detta anger ett prestanda- eller funktionsproblem med arbetsflödet.%n Arbetsflödes-ID: %2%n Instans : %3%n Instans-ID: %4%n

    Händelse-ID: 5300
    Händelsekälla: HealthService
    Händelsebeskrivning:
    Den lokala hälsotjänsten är inte felfri. Ändringsflödet för entitetstillstånd stoppas med väntande bekräftelse. %n%nHanteringsgrupp: %2 %nHanteringsgrupps-ID: %1

    Händelse-ID: 4506
    Händelsekälla: HealthService
    Händelsebeskrivning: Operations Manager
    Data togs bort på grund av för mycket utestående data i regeln %2 som kördes för instansen %3 med id:"%4" i hanteringsgruppen %1.

    Händelse-ID: 31551
    Händelsekälla: Hälsotjänst moduler
    Händelsebeskrivning:
    Det gick inte att lagra data i informationslagret. Åtgärden kommer att utföras på nytt.%rUndantag '%5': %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstance-namn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1

    Händelse-ID: 31552
    Händelsekälla: Hälsotjänst moduler
    Händelsebeskrivning:
    Det gick inte att lagra data i informationslagret.%rUndantag %5: %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstance-namn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1

    Händelse-ID: 31553
    Händelsekälla: Hälsotjänst moduler
    Händelsebeskrivning:
    Data skrevs till mellanlagringsområdet för informationslagret men bearbetningen misslyckades vid någon av de efterföljande åtgärderna.%rUndantag %5: %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstance-namn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1

    Händelse-ID: 31557
    Händelsekälla: Hälsotjänst moduler
    Händelsebeskrivning:
    Det gick inte att hämta tillståndsinformation för synkroniseringsprocessen från datalagerdatabasen. Åtgärden kommer att utföras på nytt.%rUndantag '%5': %6 %n%nEn eller flera arbetsflöden påverkades av detta. %n%nArbetsflödesnamn: %2 %nInstance-namn: %3 %nInstance-ID: %4 %nHanteringsgrupp: %1

  6. Händelse-ID 3155X kan också loggas på grund av felaktiga Kör som-kontokonfigurationer eller saknade behörigheter för Kör som-konton.

Kommentar

Information om hur du felsöker hanteringsserver- eller gatewayprestanda och SQL Server-prestanda finns i avsnittet Lösning för scenario 4 .

Scenario 4

Alla agenter som rapporterar till en specifik hanteringsserver växlar tillfälligt mellan felfria och grå tillstånd. Eller så växlar alla agenter i miljön tillfälligt mellan felfria och grå tillstånd.

Lösning för scenario 4

Lös problemet genom att först fastställa orsaken till problemet. Vanliga orsaker till att den tillfälliga servern inte är tillgänglig är följande:

  • Agenternas överordnade server är tillfälligt offline.
  • Agenter översvämmar hanteringsservern med driftdata, till exempel aviseringar, tillstånd, identifieringar och så vidare. Detta kan orsaka ökad användning av systemresurser i Operations Manager-databasen och på Operations Manager-servrarna.
  • Nätverksfel orsakade ett tillfälligt kommunikationsfel mellan den överordnade servern och agenterna.
  • Ändringar i hanteringspaketet (MP) har gjorts. I Operations Manager-konsolen kräver dessa ändringar en Operations Manager-konfiguration och en MP-omdistribution till agenterna. Om ändringen påverkar en större agentbas kan detta orsaka ökad användning av systemresurser på Operations Manager-databasen och Operations Manager-servrarna.

Nyckeln till felsökning i dessa scenarier är att förstå varaktigheten för serverns otillgänglighet och den tid på dagen då den inträffade. Detta hjälper dig att snabbt begränsa problemets omfattning.

Felsöka Management-server- och gatewayprestanda

Hanteringsserver

Under en konfigurationsuppdatering (som orsakas av MP-import och identifiering) är de typiska flaskhalsarna först processorn och den andra Operations Manager-installationsdiskens I/O. Hanteringsservern ansvarar för att vidarebefordra konfigurationsfiler till målagenterna.

När det gäller insamling av driftdata är det ofta processorn som orsakar flaskhalsarna. Disk-I/O kan också ligga på maximal kapacitet, men det är inte lika sannolikt. Hanteringsservern ansvarar för att dekomprimera och dekryptera inkommande driftdata och infoga dem i den operativa databasen. Den skickar också bekräftelser (ACK) tillbaka till agenterna eller gatewayerna när de har fått driftdata och använder diskköer för att tillfälligt lagra dessa utgående ACK.

Gateway

Gatewayen är både CPU-bunden och I/O-bunden. När gatewayen vidarebefordrar en stor mängd data kan både CPU- och I/O-åtgärderna visa hög användning. Merparten av CPU-användningen orsakas av dekomprimering, komprimering, kryptering och dekryptering av inkommande data, och även av överföringen av dessa data. Alla data som tas emot av gatewayen och från agenterna lagras i en beständig kö på disk, som ska läsas och vidarebefordras till hanteringsservern av gatewayens hälsotjänst. Detta kan orsaka hög diskanvändning. Den här användningen kan vara betydande när gatewayen tillfälligt tas offline och måste sedan hantera ackumulerade agentdata som agenterna genererade och försökte skicka när gatewayen fortfarande var offline.

Om du vill felsöka problemet i den här situationen så samla in följande information för varje hanteringsserver eller gateway som berörs:

  • Exakt Windows-version, utgåva och versionsnummer

  • Antal processorer

  • Mängden RAM-minne

  • Enhet som innehåller mappen Hälsotjänst State

  • Om antivirusprogrammet är konfigurerat för att undanta Hälsotjänst store

  • RAID-nivå (0, 1, 0+1 5eller 1+0) för den enhet som används av Hälsotjänst state

  • Antal diskar som används för RAID

  • Om batteribaserad skrivcache är aktiverad på matrisstyrenheten

Felsöka SQL Server-prestanda

Driftdatabas (OperationsManager)

Den mest sannolika flaskhalsen för OperationsManager-databasen är diskmatrisen. Om diskmatrisen inte har maximal I/O-kapacitet är processorn den näst mest sannolika flaskhalsen. Databasen kommer att drabbas av tillfälliga fördröjningar och driftsdatastormar (höga förekomster av händelser, aviseringar och prestandadata eller tillståndsändringar som kvarstår under relativt lång tid). En kort burst orsakar vanligtvis inte någon betydande fördröjning under en längre tidsperiod.

Under infogning av driftdata används databasdiskarna främst för skrivningar. CPU-användning orsakas av SQL Server-omsättning. Detta kan inträffa när du har stora och komplexa frågor, tung datainfogning och rensning av stora tabeller (vilket som standard inträffar vid midnatt). Vanligtvis förbrukar inte ens trimning av stora händelser och prestandadatatabeller överdrivet mycket CPU- eller diskresurser. Trimningen av aviserings- och tillståndsändringstabellerna kan dock vara CPU-intensiv för stora tabeller.

Databasen är också CPU-bunden när den hanterar konfigurationsdistributionstoppar, som orsakas av MP-importer eller av en stor ändring av instansutrymmet. I dessa fall frågar konfigurationstjänsten databasen efter ny agentkonfiguration. Detta orsakar vanligtvis höga toppar av CPU-användning i databasen innan tjänsten skickar konfigurationsuppdateringarna till agenterna.

Informationslager (OperationsManagerDW)

Den mest sannolika flaskhalsen för OperationsManagerDW-databasen är diskmatrisen. Detta inträffar vanligtvis på grund av stora infogningar av driftdata. I dessa fall är diskarna mest upptagna med att utföra skrivningar. Vanligtvis utför diskarna en del läsningar, förutom att de hanterar manuellt genererade rapportvyer eftersom dessa kör frågor mot informationslagret.

CPU-användningen orsakas av SQL Server-omsättning. CPU-användningstoppar kan inträffa under kraftig partitioneringsaktivitet (när tabellerna växeer innan de partitioneras), generering av komplexa rapporter och stora mängder aviseringar i databasen, med vilka informationslagret ständigt måste synkroniseras.

Allmän felsökning

Om du vill felsöka problemet i den här situationen så samla in följande information för varje hanteringsserver eller gateway som berörs:

  • Exakt Windows-version, utgåva och versionsnummer

  • Antal processorer

  • Mängden RAM-minne

  • Mängden minne som allokerats till SQL Server

  • Om SQL Server är 32-bitars och är AWE-aktiverat

    Du hittar det mesta av den här informationen i SQL Server Management Studio eller i SQL Server Enterprise Manager. Det gör du genom att öppna fönstret Egenskaper på servern och sedan välja flikarna Allmänt och Minne. Fliken Allmänt innehåller SQL Server version, Windows-version, plattform, mängden RAM-minne och antalet processorer. Fliken Minne innehåller det minne som har allokerats till SQL Server. I Microsoft SQL Server 2008 innehåller fliken Minne även AWE-alternativet.

    Om operativsystemet är 32-bitars och RAM-minnet är 4 GB eller större så kontrollera om växlarna /pae eller /3gb finns i Boot.ini. fil. Dessa alternativ kan konfigureras felaktigt om servern ursprungligen installerades med ett RAM-minne på 4 GB eller mindre och om RAM-minnet senare uppgraderats.

    För 32-bitarsservrar som har 4 GB RAM-minne ökar /3gb-växeln i Boot.ini mängden minne som SQL Server kan hantera (från 2 GB till 3 GB). För 32-bitarsservrar som har mer än 4 GB RAM-minne kan /3gb-växeln i Boot.ini faktiskt begränsa den mängd minne som SQL Server kan hantera. För dessa system lägger du till /pae-växeln i Boot.ini och aktiverar sedan AWE i SQL Server.

    Kontrollera inställningen för maxgraden av parallellitet (MAXDOP) i ett system med flera processorer. I SQL Server 2008 finns det här alternativet på fliken Avancerat i dialogrutan Egenskaper för servern.

    Standardvärdet är 0, vilket innebär att alla tillgängliga processorer används. Inställningen 0 är bra för servrar som har åtta eller färre processorer. För servrar som har fler än åtta processorer så kan den tid det tar för SQL Server att koordinera användningen av alla processorer vara kontraproduktiv. För servrar som har fler än åtta processorer bör du därför i allmänhet ange maxgraden av parallellitet till värdet 8. Det gör du genom att köra följande kommando i SQL Query Analyzer:

    sp_configure 'show advanced options', 1
    GO
    RECONFIGURE WITH OVERRIDE
    GO
    sp_configure 'max degree of parallelism', 8
    GO
    RECONFIGURE WITH OVERRIDE
    GO
    
  • Enhetsbeteckningar som innehåller informationslager, Operations Manager DB- och Tempdb-filer

  • Om antivirusprogrammet har konfigurerats till att exkludera SQL-data och loggfiler (genomsökning SQL Server-databasfiler med antivirusprogram kan försämra prestanda).

  • Mängden ledigt utrymme på enheter som innehåller informationslager, Operations Manager DB- och Tempdb-filer

  • Lagringstyp (SAN eller lokalt)

  • RAID-nivå (0, 1, 5, 0+1 eller 1+0) för enheter som används av SQL Server

  • Om SAN-lagring används: antal axlar på varje LUN som används av SQL Server

  • Om det konverterade Exchange 2007-hanteringspaketet används eller någonsin har använts: antal rader i LocalizedText tabellen i Operations Manager-databasen och i EventPublisher tabellen i informationslagrets databas

    Fastställ radbeloppen genom att köra följande kommandon:

    USE OperationsManager SELECT COUNT(*) FROM LocalizedText
    USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
    

Räknare för att identifiera minnesbelastning

Namn på prestandaräknare Beskrivning
MSSQL$<instance>: Buffer Manager: Förväntad sidlivslängd Hur länge sidor finns kvar i buffertpoolen. Om det här värdet är under 300 sekunder kan det tyda på att servern kan använda mer minne. Det kan också bero på indexfragmentering.
MSSQL$<instance>: Buffer Manager: Lazy writes/sec Uppskjuten skrivning frigör utrymme i bufferten genom att flytta sidor till disk. I allmänhet bör värdet inte kontinuerligt överstiga 20 skrivningar per sekund. Helst ska det ligga nära noll.
Minne: Tillgängliga MB Värden under 100 MB kan vara en indikation på minnesbelastning. Minnestryck är tydligt närvarande när den här mängden är mindre än 10 MB.
Process: Privata byte: _Total Det här är den mängd minne (fysisk och sida) som används av alla processer tillsammans.
Process: Arbetsuppsättning: _Total Det här är den mängd fysiskt minne som används av alla processer tillsammans. Om värdet för den här räknaren är betydligt lägre än värdet för Process: Private Bytes: _Totalär det en indikation på att processväxlingen är för betungande. En skillnad på mer än 10 % har förmodligen betydelse.

Räknare för att identifiera disktryck

Samla först in följande fysiska diskräknare för alla enheter som innehåller data eller loggfiler för SQL:

  • % inaktivitetstid: Hur mycket inaktiv tid som rapporteras för disken. Alla värden under 50 procent kan tyda på en flaskhals på disken.

  • Genomsnittlig längd på diskkön: Det här värdet får inte överskrida två gånger antalet axlar i ett LUN. Om ett LUN till exempel har 25 spindlar är värdet 50 acceptabelt. Om ett LUN däremot har 10 spindlar är värdet 25 för högt. Du kan använda följande formler baserade på RAID-nivån och antalet diskar i RAID-konfigurationen:

    • RAID 0: Samtliga diskar arbetar i en RAID 0-uppsättning

    • Genomsnittlig diskkölängd<= # (diskar i matrisen) *2

    • RAID 1: Hälften av diskarna arbetar. Därför kan endast hälften av dem räknas mot diskkön

    • Genomsnittlig diskkölängd<= # (diskar i matrisen/2) *2

    • RAID 10: Hälften av diskarna arbetar. Därför kan endast hälften av dem räknas mot diskkön

    • Genomsnittlig diskkölängd<= # (diskar i matrisen/2) *2

    • RAID 5: Alla diskar arbetar i en RAID 5-uppsättning

    • Genomsnittlig diskkölängd<= # Diskar i matrisen *2

    • Genomsnittlig tidsåtgång/överföring: Det antal sekunder det tar att slutföra en disk-I/O

    • Genomsnittlig tidsåtgång/läsning: Den genomsnittliga tid i sekunder det tar att läsa data från disken

    • Genomsnittlig tidsåtgång/skrivning: Den genomsnittliga tid i sekunder det tar att skriva data till disken

      De tre sista räknarna i den här listan bör konsekvent ha värden på cirka ,020 (20 ms) eller mindre och får aldrig överstiga ,050 (50 ms). Följande tröskelvärden som har dokumenterats i felsökningsguiden för SQL Server-prestanda:

      • Mindre än 10 ms: mycket bra
      • Mellan 10 och 20 ms: OK
      • Mellan 20 och 50 ms: långsamt, behöver åtgärdas
      • Över 50 ms: allvarlig I/O-flaskhals
    • Diskbyten/sek: Det antal byte per sekund som överförs till eller från disken

    • Disköverföringar/sek: Antalet in- och utdataåtgärder per sekund (IOPS)

    När % inaktivitetstid är låg (10 procent eller mindre) innebär det att disken används fullt ut. I det här fallet ger de två sista räknarna i listan (byte/sek för disken och disköverföringar/sek) en bra indikation på enhetens maximala dataflöde i byte respektive IOPS. Dataflödet för en SAN-enhet är mycket varierande och beror på antalet spindlar, enheternas hastighet och kanalens hastighet. Det bästa valet är att kontakta SAN-leverantören om du vill ta reda på hur många byte och IOPS enheten ska ha stöd för. Om % inaktivitetstid är låg och värdena för de här två räknarna inte motsvarar det förväntade dataflödet för enheten så be SAN-leverantören om mer felsökningshjälp.

Felsökningsguiden för SQL Server-prestanda ger djupare insikter om felsökning av SQL Server-prestanda.

Prestandaräknare för Operations Manager

I följande avsnitt beskrivs de prestandaräknare som du kan använda för att övervaka och felsöka Operations Manager-prestanda.

Gateway-serverroll

Övergripande prestandaräknare

Dessa räknare anger gatewayens övergripande prestanda:

Namn på prestandaräknare
Processor(_Total)\% processortid
Minne\% Incheckade byte som används
Nätverksgränssnitt(*)\Totalt antal byte/s
LogicalDisk(*)\% inaktivitetstid
LogicalDisk(*)\Genomsnittlig diskkölängd
Operations Manager bearbetar allmänna prestandaräknare

Dessa räknare anger den övergripande prestandan för Operations Manager-processer på gatewayen:

Namn på prestandaräknare Beskrivning
Process(HealthService)\% processortid
Process(Hälsotjänst)\Privata byte Beroende på hur många agenter den här gatewayen hanterar kan det här antalet variera och kan vara flera hundra megabyte
Process(HealthService)\Antal trådar
Process(HealthService)\Virtuella byte
Process(HealthService)\Arbetsuppsättning
Process(MonitoringHost*)\% processortid
Process(Övervakningsvärd*)\Privata byte
Process(MonitoringHost*)\Antal trådar
Process(MonitoringHost*)\Virtuella byte
Process(MonitoringHost*)\Arbetsuppsättning
Operations Manager-specifika prestandaräknare

Dessa räknare är Operations Manager-specifika räknare som anger prestanda för specifika aspekter av Operations Manager på gatewayen:

Namn på prestandaräknare Beskrivning
Hälsotjänst(*)\Antal arbetsflöden
Hälsotjänsthanteringsgrupper(*)\Aktiva filuppladdningar Antalet filöverföringar som den här gatewayen hanterar. Detta representerar antalet hanteringspaketfiler som laddas upp till agenter. Om det här värdet ligger kvar på en hög nivå under en längre tid och det inte importeras mycket hanteringspaket vid en viss tidpunkt, kan dessa villkor generera ett problem som påverkar filöverföringen.
Hanteringsgrupper för hälsotillståndstjänst(*)\Sändningskö % använt Storleken på den beständiga kön. Om det här värdet förblir högre än 10 under en längre tid, och det inte tas bort, så indikerar detta att kön säkerhetskopieras. Det här villkoret orsakas av ett överbelastat Operations Manager-system eftersom hanteringsservern eller databasen är för upptagen eller är offline.
OpsMgr-anslutningsprogram\Mottagna byte Antalet nätverksbyte som tas emot av gatewayen , det vill: antalet inkommande byte före dekomprimering.
OpsMgr-anslutningsprogram\Överförda byte Antalet nätverksbyte som skickas av gatewayen , det vill: antalet utgående byte efter komprimering.
OpsMgr-anslutningsprogram\Mottagna databyte Antalet databyte som tas emot av gatewayen , det vill: mängden inkommande data efter dekomprimering.
OpsMgr-anslutningsprogram\Överförda databyte Antalet databyte som skickas av gatewayen, dvs. mängden utgående data före komprimering.
OpsMgr-anslutningsprogram\Öppna anslutningar Antalet anslutningar som är öppna på gatewayen. Det här antalet ska vara samma som antalet agenter eller hanteringsservrar som är direkt anslutna till gatewayen.

Hanteringsserverroll

Övergripande prestandaräknare

Dessa räknare anger hanteringsserverns övergripande prestanda:

Namn på prestandaräknare
Processor(_Total)\% processortid
Minne\% Incheckade byte som används
Nätverksgränssnitt(*)\Totalt antal byte/s
LogicalDisk(*)\% inaktivitetstid
LogicalDisk(*)\Genomsnittlig diskkölängd
Operations Manager bearbetar allmänna prestandaräknare

Dessa räknare anger den övergripande prestandan för Operations Manager-processer på hanteringsservern:

Namn på prestandaräknare Beskrivning
Process(HealthService)\% processortid
Process(Hälsotjänst)\Privata byte Beroende på hur många agenter den här hanteringsservern hanterar kan antalet variera och det kan röra sig om flera hundra megabyte.
Process(HealthService)\Antal trådar
Process(HealthService)\Virtuella byte
Process(HealthService)\Arbetsuppsättning
Process(MonitoringHost*)\% processortid
Process(Övervakningsvärd*)\Privata byte
Process(MonitoringHost*)\Antal trådar
Process(MonitoringHost*)\Virtuella byte
Process(MonitoringHost*)\Arbetsuppsättning
Operations Manager-specifika prestandaräknare

Dessa räknare är Operations Manager-specifika räknare som anger prestanda för specifika aspekter av Operations Manager på hanteringsservern:

Namn på prestandaräknare Beskrivning
Hälsotjänst(*)\Antal arbetsflöden Antalet arbetsflöden som körs på den här hanteringsservern.
Hälsotjänsthanteringsgrupper(*)\Aktiva filuppladdningar Antalet filöverföringar som den här hanteringsservern hanterar. Detta representerar antalet hanteringspaketfiler som laddas upp till agenter. Om det här värdet ligger kvar på en hög nivå under en längre tid och det inte importeras mycket hanteringspaket vid en viss tidpunkt, kan dessa villkor generera ett problem som påverkar filöverföringen.
Hanteringsgrupper för hälsotillståndstjänst(*)\Sändningskö % använt Den beständiga köns storlek. Om det här värdet förblir högre än 10 under en längre tid, och det inte tas bort, så indikerar detta att kön säkerhetskopieras. Det här villkoret orsakas av ett överbelastat Operations Manager-system eftersom Operations Manager-systemet (exempelvis rothanteringsservern) är för upptagen eller offline.
Hälsotjänsthanteringsgrupper(*)\Bind datakällans artikelavlämningsfrekvens Antalet dataobjekt som tas bort av hanteringsservern för skrivåtgärder för databas- eller informationslagerdatainsamling. När det här räknarvärdet inte 0är överbelastas hanteringsservern eller databasen eftersom den inte kan hantera inkommande dataobjekt tillräckligt snabbt eller på grund av att ett dataobjekts burst inträffar. De borttagna dataobjekten kommer att återständas av agenter. När överlagringen eller burst-situationen är klar infogas dessa dataobjekt i databasen eller i informationslagret.
Hälsotjänsthanteringsgrupper(*)\Bind datakällans frekvens för inkommande artiklar Antalet dataobjekt som tas emot av hanteringsservern för skrivåtgärder för databas- eller informationslagerdatainsamling.
Hälsotjänsthanteringsgrupper(*)\Bind datakällans artikelpubliceringsfrekvens Antalet dataobjekt som hanteringsservern skrivit till databasen eller datalagret för skrivåtgärder för datainsamling.
OpsMgr-anslutningsprogram\Mottagna byte Antalet nätverksbyte som tas emot av hanteringsservern, det vill säga storleken på inkommande byte före dekomprimering.
OpsMgr-anslutningsprogram\Överförda byte Antalet nätverksbyte som skickas av hanteringsservern det vill säga storleken på utgående byte efter komprimering.
OpsMgr-anslutningsprogram\Mottagna databyte Antalet databyte som tas emot av hanteringsservern, dvs. storleken på inkommande data efter dekomprimering.
OpsMgr-anslutningsprogram\Överförda databyte Antalet databyte som skickas av hanteringsservern, dvs. storleken på utgående data före komprimering.
OpsMgr-anslutningsprogram\Öppna anslutningar Antalet öppna anslutningar på hanteringsservern. Det bör vara detsamma som antalet agenter på rothanteringsservern som är direkt ansluten.
Moduler för OpsMgr-databasskrivningsåtgärder(*)\Genomsnittlig batchstorlek Antalet dataobjekt eller batchar som tas emot av moduler för databasskrivningsåtgärder. Om det här talet är 5 000 inträffar en dataobjektsburst.
Moduler för OpsMgr-databasskrivningsåtgärder(*)\Genomsnittlig bearbetningstid Antalet sekunder det tar för en modul för databasskrivningsåtgärder att infoga en batch i databasen. Om det här värdet ofta överskrider 60 uppstår ett problem med databasinfogningsprestanda.
OpsMgr DW-skrivarmodul(*)\Genomsnittlig batchbearbetningstid, ms Det antal millisekunder det tar för informationslagrets skrivåtgärd att infoga en batch med dataobjekt i ett informationslager.
OpsMgr DW-skrivarmodul(*)\Genomsnittlig batchstorlek Det genomsnittliga antalet dataobjekt eller batchar som tas emot av informationslagrets skrivåtgärdsmoduler.
OpsMgr DW-skrivarmodul(*)\Batchar/sek Antalet batchar som tas emot av informationslagrets skrivåtgärdsmoduler per sekund.
OpsMgr DW-skrivarmodul(*)\Dataobjekt/sek Antalet dataobjekt som tas emot av informationslagrets skrivåtgärdsmoduler per sekund.
OpsMgr DW-skrivarmodul(*)\Antal släppta dataobjekt Antalet dataobjekt som släppts av informationslagrets skrivåtgärdsmoduler.
OpsMgr DW-skrivarmodul(*)\Totalt antal fel Antalet fel som inträffat i ett informationslagers skrivåtgärdsmodul.