Risolvere i problemi relativi agli stati grigi dell'agente in System Center Operations Manager
Questo articolo descrive come risolvere i problemi in cui un agente, un server di gestione o un gateway non è disponibile o disattivato in System Center Operations Manager (OpsMgr).
Versione originale del prodotto: Microsoft System Center 2012 Operations Manager
Numero KB originale: 2288515
Un agente, un server di gestione o un gateway può avere uno degli stati seguenti, come indicato dal colore del nome e dell'icona dell'agente nel riquadro Monitoraggio .
Provincia | Aspetto | Descrizione |
---|---|---|
Healthy | Segno di spunta verde | L'agente o il server Management è in esecuzione normalmente. |
Critico | Segno di spunta rosso | Si è verificato un problema con l'agente o il server Management. |
Sconosciuto | Nome agente grigio, segno di spunta grigio | Il Watcher del servizio integrità sul server Management che controlla il servizio integrità sul computer monitorato non riceve più gli heartbeat dall'agente. Il controllo del servizio integrità riceveva gli heartbeat in precedenza e lo stato era segnalato come integro. Questo significa anche che i server di gestione non ricevono più tutte le informazioni dall'agente. Questo problema può verificarsi se il computer che esegue l'agente non è in esecuzione o se si verificano problemi di connettività. |
Sconosciuto | Cerchio verde, nessun segno di spunta | Lo stato dell'elemento individuato è sconosciuto. Non è disponibile alcun monitoraggio per l’elemento specifico individuato. |
Cause di uno stato grigio
Un agente, un server Management o un gateway potrebbero non essere disponibili per uno dei motivi seguenti:
- Errore heartbeat
- Configurazione non valida.
- Errore dei flussi di lavoro del sistema
- Problemi di prestazioni del data warehouse o del database di Operations Manager
- Problemi di prestazioni del server Management o del server gateway
- Problemi di rete o di autenticazione
- Servizio integrità non in esecuzione
Ambito del problema
Prima di iniziare a risolvere il problema di grigio dell'agente, è necessario comprendere prima la topologia di Operations Manager e quindi definire l'ambito del problema. Le domande seguenti possono essere utili per definire l'ambito del problema:
- Quanti agenti sono interessati?
- Gli agenti riscontrano il problema nello stesso segmento di rete?
- Gli agenti segnalano allo stesso server di gestione?
- Con quale frequenza gli agenti entrano e rimangono in uno stato grigio?
- Come si esegue in genere il ripristino da questa situazione(ad esempio, riavviare il servizio integrità dell'agente, cancellare la cache, basarsi sul ripristino automatico)?
- Gli avvisi di errore heartbeat vengono generati per questi agenti?
- Questo problema si verifica durante un'ora specifica del giorno?
- Questo problema persiste se si esegue il failover di questi agenti in un altro server di gestione o gateway?
- Quando è iniziato questo problema?
- Sono state apportate modifiche agli agenti, ai server di gestione o al gateway o al gruppo di gestione?
- Gli agenti interessati sono i sistemi windows in cluster?
- La cartella Servizio integrità State è esclusa dall'analisi antivirus?
Strategia di risoluzione dei problemi
La strategia di risoluzione dei problemi sarà dettata da quale componente è inattivo, in cui tale componente rientra nella topologia e da quanto è diffuso il problema. Considerare le condizioni seguenti:
- Se gli agenti che segnalano a un determinato server di gestione o gateway non sono disponibili, la risoluzione dei problemi deve iniziare a livello di server di gestione o gateway.
- Se i gateway che segnalano a un determinato server di gestione non sono disponibili, la risoluzione dei problemi deve iniziare a livello di server di gestione.
- Per i sistemi senza agente, per i dispositivi di rete e per i server Unix e Linux, la risoluzione dei problemi deve iniziare dall'agente, dal server di gestione o dal gateway che monitora questi oggetti.
- La risoluzione dei problemi inizia in genere a livello immediatamente superiore al componente non disponibile.
Scenario 1
Solo alcuni agenti sono interessati dal problema. Questi agenti segnalano a server di gestione diversi. Gli agenti rimangono regolarmente non disponibili. Anche se è possibile cancellare la cache dell'agente per risolvere temporaneamente il problema, il problema si ripete dopo alcuni giorni.
Risoluzione per lo scenario 1
Per risolvere il problema in questo scenario, seguire questa procedura:
- Applicare l'hotfix appropriato ai sistemi operativi interessati.
- Escludere la cache dell'agente dall'analisi antivirus. Per altre informazioni, vedere Raccomandazioni per le esclusioni antivirus correlate a Operations Manager.
- Arrestare il servizio integrità.
- Cancellare la cache dell'agente.
- Avviare il servizio integrità.
Scenario 2
Solo alcuni agenti sono interessati dal problema. Questi agenti segnalano a server di gestione diversi. Gli agenti rimangono inattivi costantemente. Anche se è possibile cancellare la cache dell'agente, questo non risolve il problema.
Risoluzione per lo scenario 2
Per risolvere il problema in questo scenario, seguire questa procedura:
Determinare se il servizio integrità è attivato ed è attualmente in esecuzione nel server di gestione o nel gateway. Se il servizio integrità ha smesso di rispondere, generare un dump di ADPlus in modalità di blocco del servizio per determinare la causa del problema. Per altre informazioni, vedere Come usare ADPlus.vbs per risolvere i problemi di "blocchi" e "arresti anomali"
Esaminare il registro eventi di Operations Manager nell'agente per individuare uno degli eventi seguenti:
ID evento: 1102
Origine evento: HealthService
Descrizione evento:
Impossibile inizializzare la regola/il monitoraggio "%4" in esecuzione per l'istanza "%3" con id:"%2" e non verrà caricato. Gruppo di gestione "%1"ID evento: 1103
Origine evento: HealthService
Descrizione evento:
Riepilogo: %2 regole/monitor non riuscite e scaricate, %3 di esse ha raggiunto il limite di errore che impedisce il ricaricamento automatico. Gruppo di gestione: "%1". Questo è un evento di solo riepilogo, vedere altri eventi con descrizioni di regole non caricate/monitor.ID evento: 1104
Origine evento: HealthService
Descrizione evento:
Impossibile risolvere il profilo RunAs nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con id:"%2". Il flusso di lavoro non verrà caricato. Gruppo di gestione "%1"ID evento: 1105
Origine evento: HealthService
Descrizione evento:
Tipo non corrispondente per il profilo RunAs nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con id:"%2". Il flusso di lavoro non verrà caricato. Gruppo di gestione "%1"ID evento: 1106
Origine evento: HealthService
Descrizione evento:
Impossibile accedere al profilo RunAs in testo normale nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con id:"%2". Il flusso di lavoro non verrà caricato. Gruppo di gestione "%1"ID evento: 1107
Origine evento: HealthService
Descrizione evento:
L'account del profilo RunAs nel flusso di lavoro "%4", in esecuzione per l'istanza "%3" con id:"%2" non è definito. Il flusso di lavoro non verrà caricato. Associare un account al profilo. Gruppo di gestione "%1"ID evento: 1108
Origine evento: HealthService
Descrizione evento:
Impossibile risolvere un account specificato nel profilo RunAs "%7". In particolare, l'account viene usato nell'override di riferimento sicuro "%6". %n%n Questa condizione potrebbe essersi prodotta perché l'account non è configurato per la distribuzione a questo computer. Per risolvere il problema, aprire il profilo RunAs specificato di seguito, individuare la voce account specificata dal relativo SSID e scegliere di distribuire l'account a questo computer, se appropriato, oppure cambiare l'impostazione nel profilo in modo che l'oggetto di destinazione non utilizzi l'account specificato. %n%nGruppo di gestione: %1 %nProfilo RunAs: %7 %nNome SecureReferenceOverride: %6 %nID SecureReferenceOverride: %4 %nNome oggetto: %3 %nID oggetto: %2 %nSSID account: %5ID evento: 4000
Origine evento: HealthService
Descrizione evento:
Un host di monitoraggio non risponde o si è arrestato in modo anomalo. Il codice di stato per l'errore dell'host è %1.ID evento: 21016
Origine evento: Connettore OpsMgr
Descrizione evento:
OpsMgr non è riuscito a configurare un canale di comunicazione su %1 e non sono presenti host di failover. La comunicazione riprenderà quando %1 è disponibile e la comunicazione da questo computer è consentita.ID evento: 21006
Origine evento: Connettore OpsMgr
Descrizione evento:
Il connettore OpsMgr non è riuscito a connettersi a %1:%2. Il codice di errore è %3(%4). Verificare che sia presente connettività di rete, che il server sia in esecuzione e abbia registrato la porta di ascolto e che non ci siano firewall che bloccano il traffico verso la destinazione.ID evento: 20070
Origine evento: Connettore OpsMgr
Descrizione evento:
Connettore OpsMgr connesso a %1, ma la connessione è stata chiusa immediatamente dopo l'autenticazione. La causa più probabile dell'errore è che l'agente non è autorizzato a comunicare con il server oppure il server non è stato configurato. Controllare il registro eventi sul server per verificare la presenza di eventuali eventi 20000, che indicano il tentativo di connessione da parte di alcuni agenti non autorizzati.ID evento: 20051
Origine evento: Connettore OpsMgr
Descrizione evento:
Impossibile caricare il certificato specificato perché il certificato non è attualmente valido. Verificare che l'ora di sistema sia corretta ed emettere nuovamente il certificato, se necessario%n Ora di inizio valida del certificato: %1%n Ora di fine valida del certificato : %2Origine evento: ESE
Categoria di eventi: Gestione transazioni
ID evento: 623
Descrizione: HealthService (<PID>) L'archivio delle versioni per l'istanza><("<name>") ha raggiunto le dimensioni massime del <valore> Mb. È probabile che una transazione con esecuzione prolungata impedisca la pulizia dell'archivio delle versioni e la causa della compilazione delle dimensioni. Gli aggiornamenti verranno rifiutati fino a quando non viene eseguito completamente il commit o il rollback della transazione a esecuzione prolungata. Possibile transazione a esecuzione prolungata:
SessionId: <valore>
Contesto sessione: <valore>
ThreadId contesto sessione: <valore>.
Pulizia: <valore>Se si individuano gli eventi specifici seguenti, seguire queste linee guida:
Eventi 1102 e 1103: questi eventi indicano che alcuni dei flussi di lavoro non sono stati caricati. Se si tratta dei flussi di lavoro di sistema principali, questi eventi potrebbero causare il problema. In questo caso, concentrarsi sulla risoluzione di questi eventi.
Eventi 1104, 1105, 1106, 1107 e 1108: questi eventi possono causare l'esecuzione di eventi 1102 e 1103. In genere, ciò si verifica a causa di account RunAs non configurati correttamente. Ad esempio, gli account RunAs sono configurati per essere usati con la classe errata o non sono configurati per essere distribuiti all'agente.
Evento 4000: questo evento indica che il processo Monitoringhost.exe si è arrestato in modo anomalo. Se questo problema è causato da una mancata corrispondenza della DLL o da chiavi del Registro di sistema mancanti, è possibile risolvere il problema reinstallando l'agente. Se il problema persiste, provare a risolverlo usando i metodi seguenti:
- Eseguire un'acquisizione di Monitoraggio processi fino a quando il punto in cui il processo si arresta in modo anomalo. Per altre informazioni, vedere Process Monitor v3.53.
- Generare un dump di ADPlus in modalità di arresto anomalo. Per altre informazioni, vedere Come usare ADPlus.vbs per risolvere i problemi di "blocchi" e "arresti anomali"
ID evento 21006: questo evento indica che esistono problemi di comunicazione tra l'agente e il server di gestione. Se l'agente usa un certificato per l'autenticazione reciproca, verificare che il certificato non sia scaduto e che l'agente usi il certificato corretto. Se si usa Kerberos, verificare che l'agente possa comunicare con Active Directory. Se l'autenticazione funziona correttamente, ciò potrebbe significare che i pacchetti dell'agente non raggiungono il server di gestione o il gateway. Provare a stabilire una telnet sulla porta 5723 dall'agente al server di gestione. Eseguire inoltre una traccia di rete simultanea tra l'agente e il server di gestione durante la riproduzione degli errori di comunicazione. Ciò consente di determinare se i pacchetti raggiungono il server di gestione e se un dispositivo tra i due componenti sta tentando di ottimizzare il traffico o di eliminare alcuni pacchetti. Per altre informazioni, vedere Raccogliere dati con Monitoraggio di rete.
ID evento 623: questo evento si verifica in genere in un ambiente Operations Manager di grandi dimensioni in cui un server di gestione o un computer agente gestisce molti flussi di lavoro. Per altre informazioni, vedere Uno o più server di gestione e i relativi dispositivi gestiti sono inattivi nella console di Operations Manager.
Scenario 3
Tutti gli agenti che segnalano a un determinato server di gestione o gateway non sono disponibili.
Risoluzione per lo scenario 3
Per risolvere il problema in questo scenario, seguire questa procedura:
Provare a determinare il tipo di carichi di lavoro monitorati dal server di gestione o dal gateway. Tali carichi di lavoro possono includere dispositivi di rete, agenti multipiattaforma, transazioni sintetiche, agenti Windows e computer senza agente.
Determinare se il servizio integrità è in esecuzione nel server di gestione o nel gateway.
Determinare se il server di gestione è in esecuzione in modalità di manutenzione. Se necessario, rimuovere il server dalla modalità di manutenzione.
Esaminare il registro eventi di Operations Manager nell'agente per individuare gli eventi elencati nello scenario 2. Se è presente l'ID evento 21006, seguire le stesse linee guida indicate in Risoluzione per lo scenario 2. Inoltre, in questo caso, questo evento indica che il server di gestione o il gateway non può comunicare con il server padre. Per un gateway, il server padre può essere qualsiasi server di gestione. (Fare riferimento al passaggio 3 nel Risoluzione per lo scenario 2.
Esaminare il registro eventi di Operations Manager per gli eventi seguenti. Questi eventi indicano in genere che esistono problemi di prestazioni nel server di gestione o in Microsoft SQL Server che ospita il
OperationsManager
database oOperationsManagerDW
:ID evento: 2115
Origine evento: HealthService
Descrizione evento:
Un'origine dati bind nel gruppo di gestione %1 ha inserito elementi nel flusso di lavoro, ma non ha ricevuto una risposta in %5 secondi. Indica un problema di prestazioni o funzionali con il flusso di lavoro.%n ID flusso di lavoro : %2%n Istanza : %3%n ID istanza : %4%nID evento: 5300
Origine evento: HealthService
Descrizione evento:
Il servizio integrità locale non è integro. Il flusso di modifica dello stato dell'entità è bloccato con acknowledgement in sospeso. %n%nGruppo di gestione: %2 %nID gruppo di gestione: %1ID evento: 4506
Origine evento: HealthService
Descrizione evento: Operations Manager
I dati sono stati eliminati a causa di un numero eccessivo di dati in sospeso nella regola "%2" in esecuzione per l'istanza "%3" con id:"%4" nel gruppo di gestione "%1".ID evento: 31551
Origine evento: moduli Servizio integrità
Descrizione evento:
Impossibile archiviare i dati nel data warehouse. L'operazione verrà ritentata.%rException '%5': %6 %n%n%nOne o più flussi di lavoro interessati da questa operazione. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1ID evento: 31552
Origine evento: moduli Servizio integrità
Descrizione evento:
Impossibile archiviare i dati nel data warehouse.%rException '%5': %6 %n%n%nOne o più flussi di lavoro sono interessati da questo problema. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1ID evento: 31553
Origine evento: moduli Servizio integrità
Descrizione evento:
I dati sono stati scritti nell'area di gestione temporanea del data warehouse, ma l'elaborazione non è riuscita in una delle operazioni successive.%rException '%5': %6 %n%n%nOne o più flussi di lavoro sono stati interessati da questo problema. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1ID evento: 31557
Origine evento: moduli Servizio integrità
Descrizione evento:
Impossibile ottenere informazioni sullo stato del processo di sincronizzazione dal database del data warehouse. L'operazione verrà ritentata.%rException '%5': %6 %n%n%nOne o più flussi di lavoro interessati da questa operazione. %n%nNome flusso di lavoro: %2 %nNome istanza: %3 %nID istanza: %4 %nGruppo di gestione: %1È anche possibile registrare l'ID evento 3155X a causa di configurazioni dell'account RunAs non corrette o autorizzazioni mancanti per gli account RunAs.
Note
Per risolvere i problemi relativi alle prestazioni del server di gestione o del gateway e alle prestazioni di SQL Server, vedere la sezione Risoluzione per lo scenario 4 .
Scenario 4
Tutti gli agenti che segnalano a un server di gestione specifico si alternano in modo intermittente tra stati integri e grigi. In alternativa, tutti gli agenti nell'ambiente alternano in modo intermittente tra stati integri e grigi.
Risoluzione per lo scenario 4
Per risolvere il problema, determinare prima di tutto la causa del problema. Le cause comuni dell'indisponibilità del server temporaneo includono quanto segue:
- Il server padre degli agenti è temporaneamente offline.
- Gli agenti inondano il server di gestione con dati operativi, ad esempio avvisi, stati, individuazioni e così via. Ciò può comportare un maggiore uso delle risorse di sistema nel database di Operations Manager e nei server di Operations Manager.
- Le interruzioni di rete hanno causato un errore di comunicazione temporaneo tra il server padre e gli agenti.
- Sono state apportate modifiche al Management Pack (MP). Nella console di Operations Manager queste modifiche richiedono una configurazione di Operations Manager e una ridistribuzione MP agli agenti. Se la modifica influisce su una base agente di dimensioni maggiori, questo potrebbe causare un maggiore utilizzo delle risorse di sistema nei server di Operations Manager e Operations Manager.
La chiave per la risoluzione dei problemi in questi scenari consiste nel comprendere la durata dell'indisponibilità del server e l'ora del giorno in cui si è verificata. Ciò consentirà di restringere rapidamente l'ambito del problema.
Risoluzione dei problemi relativi alle prestazioni del server Management e del gateway
Server di gestione
Durante un burst di aggiornamento della configurazione (causato dall'importazione e dall'individuazione di Mp), i colli di bottiglia tipici sono, primo, CPU e secondo, I/O del disco di installazione di Operations Manager. Il server di gestione è responsabile dell'inoltro dei file di configurazione agli agenti di destinazione.
Per la raccolta dati operativa, i colli di bottiglia sono in genere causati dalla CPU. Le operazioni di I/O del disco potrebbero essere alla capacità massima, ma non è così probabile. Il server di gestione è responsabile della decompressione e della decrittografia dei dati operativi in ingresso e dell'inserimento nel database operativo. Invia anche gli acknowledgment (ACK) agli agenti o ai gateway dopo aver ricevuto i dati operativi e usa l'accodamento del disco per archiviare temporaneamente gli acknowledgment in uscita.
Gateway
Il gateway è associato a CPU e I/O. Quando il gateway inoltra una grande quantità di dati, le operazioni di CPU e I/O possono mostrare un utilizzo elevato. La maggior parte dell'utilizzo della CPU è causata dalla decompressione, dalla compressione, dalla crittografia e dalla decrittografia dei dati in ingresso e anche dal trasferimento di tali dati. Tutti i dati ricevuti dal gateway e dagli agenti vengono archiviati in una coda permanente su disco, per essere letti e inoltrati al server di gestione dal servizio integrità gateway. Ciò può causare un utilizzo elevato del disco. Questo utilizzo può essere significativo quando il gateway viene portato temporaneamente offline e deve quindi gestire i dati dell'agente accumulati generati e tentati di inviare quando il gateway era ancora offline.
Per risolvere il problema in questa situazione, raccogliere le informazioni seguenti per ogni server di gestione o gateway interessato:
Versione esatta di Windows, edizione e numero di build
Numero di processori
Quantità di RAM
Unità contenente la cartella Servizio integrità State
Indica se il software antivirus è configurato per escludere l'archivio Servizio integrità
Note
Per altre informazioni, vedere Raccomandazioni per le esclusioni antivirus correlate a Operations Manager.
Livello RAID (
0
,1
,5
0+1
o1+0
) per l'unità usata dallo stato Servizio integritàNumero di dischi usati per RAID
Indica se la cache di scrittura supportata dalla batteria è abilitata nel controller di matrice
Risoluzione dei problemi relativi alle prestazioni di SQL Server
Database operativo (OperationsManager)
Per il database OperationsManager
, il collo di bottiglia più probabile è costituito dall'array di dischi. Se l'array di dischi non è alla capacità di I/O massima, il collo di bottiglia più probabile successivo è la CPU. Il database riscontrerà rallentamenti occasionali e tempeste di dati operativi (incidenze elevate di eventi, avvisi e dati sulle prestazioni o modifiche dello stato che persistono per un periodo di tempo relativamente lungo). Un breve picco in genere non causa alcun ritardo significativo per un periodo di tempo esteso.
Durante l'inserimento dei dati operativi, i dischi del database vengono usati principalmente per le scritture. L'utilizzo della CPU è causato dalla varianza di SQL Server. Questo problema può verificarsi in caso di query di grandi dimensioni e complesse, inserimento di dati pesanti e la pulizia di tabelle di grandi dimensioni (che, per impostazione predefinita, si verifica a mezzanotte). In genere, la pulizia di eventi di grandi dimensioni e di tabelle dati sulle prestazioni non utilizza risorse di CPU o dischi eccessive. Tuttavia, la pulizia delle tabelle degli avvisi e delle modifiche dello stato può richiedere un utilizzo elevato della CPU per le tabelle di grandi dimensioni.
Il database è anche vincolato alla CPU quando gestisce i burst di ridistribuzione della configurazione, causati dalle importazioni di Management Pack o da una modifica dello spazio di istanze di grandi dimensioni. In questi casi, il servizio di configurazione esegue una query sul database per la nuova configurazione dell'agente. Questa operazione causa quindi picchi di CPU nel database prima che il servizio invii gli aggiornamenti della configurazione agli agenti.
Data warehouse (OperationsManagerDW)
Per il database OperationsManagerDW
, il collo di bottiglia più probabile è costituito dall'array di dischi. Questo deriva in genere da inserimenti di dati operativi di grandi dimensioni. In questi casi, i dischi sono principalmente impegnati a eseguire scritture. Solitamente, i dischi eseguono poche letture, tranne che per gestire le visualizzazioni report generate manualmente perché queste query vengono eseguite nel data warehouse.
L'utilizzo della CPU è causato dalla varianza di SQL Server. I picchi di CPU possono verificarsi durante attività di partizionamento pesanti (quando le tabelle diventano grandi e quindi vengono partizionate), la generazione di report complessi e grandi quantità di avvisi nel database, con cui il data warehouse deve essere costantemente sincronizzato.
Risoluzione dei problemi generali
Per risolvere il problema in questa situazione, raccogliere le informazioni seguenti per ogni server di gestione o gateway interessato:
Versione esatta di Windows, edizione e numero di build
Numero di processori
Quantità di RAM
Quantità di memoria allocata a SQL Server
Se SQL Server è a 32 bit e se l'opzione Address Windowing Extensions (AWE) è abilitata
È possibile trovare la maggior parte di queste informazioni in SQL Server Management Studio o in SQL Server Enterprise Manager. A tale scopo, aprire la finestra Proprietà del server e quindi selezionare le schede Generale e Memoria. La scheda Generale include la versione SQL Server, la versione di Windows, la piattaforma, la quantità di RAM e il numero di processori. La scheda Memoria include la memoria allocata a SQL Server. In Microsoft SQL Server 2008 la scheda Memoria include anche l'opzione AWE.
Se il sistema operativo è a 32 bit e la RAM è 4 GB o più, verificare se esistono le opzioni
/pae
o/3gb
nel file Boot.ini. edmx. Queste opzioni potrebbero essere state configurate in modo errato se il server è stato originariamente installato con 4 GB di RAM o meno e la RAM è stata aggiornata in seguito.Per i server a 32 bit con 4 GB di RAM, l'opzione
/3gb
in Boot.ini aumenta la quantità di memoria che SQL Server può usare (da 2 GB a 3 GB). Per i server a 32 bit con più di 4 GB di RAM, l'opzione/3gb
in Boot.ini potrebbe effettivamente limitare la quantità di memoria che SQL Server può usare. Per questi sistemi, aggiungere l'opzione/pae
a Boot.ini e quindi abilitare l'opzione AWE in SQL Server.In un sistema multiprocessore controllare l'impostazione Massimo grado di parallelismo (MAXDOP) . In SQL Server 2008 questa opzione si trova nella scheda Avanzate nella finestra di dialogo Proprietà per il server.
Il valore predefinito è 0, ovvero che verranno usati tutti i processori disponibili. Un'impostazione di 0 è adatta per i server con otto o meno processori. Per i server con più di otto processori, il tempo impiegato da SQL Server per coordinare l'uso di tutti i processori può essere controproducente. Di conseguenza, per i server con più di otto processori è in genere consigliabile impostare Massimo grado di parallelismo su un valore di 8. A tale scopo, eseguire il comando seguente in SQL Query Analyzer:
sp_configure 'show advanced options', 1 GO RECONFIGURE WITH OVERRIDE GO sp_configure 'max degree of parallelism', 8 GO RECONFIGURE WITH OVERRIDE GO
Lettere di unità che contengono file data warehouse, database di Operations Manager e Tempdb
Se il software antivirus è configurato per escludere i dati SQL e i file di log (l'analisi dei file di database SQL Server con software antivirus può ridurre le prestazioni).
Quantità di spazio libero nelle unità che contengono file data warehouse, database di Operations Manager e Tempdb
Tipo di archiviazione (SAN o locale)
Livello RAID (0, 1, 5, 0+1 o 1+0) per le unità usate da SQL Server
Se viene usata l'archiviazione SAN: numero di spindle in ogni LUN usato da SQL Server
Se il Management Pack di Exchange 2007 convertito viene utilizzato o è mai stato utilizzato: numero di righe nella
LocalizedText
tabella nel database di Operations Manager e nellaEventPublisher
tabella nel database del data warehousePer determinare le quantità di righe, eseguire i comandi seguenti:
USE OperationsManager SELECT COUNT(*) FROM LocalizedText USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
Contatori per identificare l'utilizzo elevato di memoria
Nome del contatore delle prestazioni | Descrizione |
---|---|
MSSQL$<instance>: Gestione buffer: Aspettativa di vita delle pagine | Permanenza delle pagine nel pool di buffer. Se questo valore è inferiore a 300 secondi, può indicare che il server potrebbe usare più memoria. Potrebbe anche derivare dalla frammentazione dell'indice. |
MSSQL$<instance>: Gestione buffer: scritture lazy/sec | Il Lazywriter libera spazio nel buffer spostando le pagine sul disco. In genere, il valore non deve superare continuamente 20 scritture al secondo. Idealmente, deve essere vicino allo zero. |
Memoria: MB disponibili | I valori inferiori a 100 MB possono indicare un utilizzo elevato della memoria. Si tratta chiaramente di utilizzo elevato della memoria quando questo valore è minore di 10 MB. |
Processo: byte privati: _Total | Si tratta della quantità di memoria (fisica e di paging) usata da tutti i processi combinati. |
Processo: Working set: _Total | Si tratta della quantità di memoria fisica usata da tutti i processi combinati. Se il valore per questo contatore è significativamente inferiore al valore per Process: Private Bytes: _Total , indica un utilizzo eccessivo del paging dei processi. Una differenza di oltre il 10% è probabilmente significativa. |
Contatori per identificare l'utilizzo elevato del disco
Acquisire i contatori del disco fisico seguenti per tutte le unità che contengono i dati o i file di log SQL:
% Tempo di inattività: quantità di tempo di inattività del disco segnalata. Qualsiasi valore inferiore al 50% potrebbe indicare un collo di bottiglia del disco.
Lunghezza media coda del disco: questo valore non deve superare il doppio del numero di spindle in un LUN. Ad esempio, se un LUN ha 25 spindle, un valore pari a 50 è accettabile. Tuttavia, se un LUN ha 10 spindle, un valore pari a 25 è troppo elevato. È possibile usare le formule seguenti in base al livello di RAID e al numero di dischi nella configurazione di RAID:
RAID 0: in un set RAID 0 tutti i dischi svolgono operazioni
Average Disk Queue Length<= # (Dischi nella matrice) *2
RAID 1: la metà dei dischi svolge operazioni, di conseguenza solo la metà di essi può essere conteggiata rispetto alla coda del disco
Average Disk Queue Length<= # (Dischi nella matrice/2) *2
RAID 10: la metà dei dischi svolge operazioni, di conseguenza solo la metà di essi può essere conteggiata rispetto alla coda dei dischi
Average Disk Queue Length<= # (Dischi nella matrice/2) *2
RAID 5: in un set RAID 5 tutti i dischi svolgono operazioni
Lunghezza media coda< disco= # Dischi nella matrice *2
Media trasferimenti disco/sec: numero di secondi necessari per completare un'operazione d input/output del disco
Media letture disco/sec: tempo medio, in secondi, per leggere i dati dal disco
Media scritture disco/sec: tempo medio, in secondi, per scrivere i dati nel disco
Gli ultimi tre contatori di questo elenco devono avere costantemente valori di circa 0,020 (20 ms) o inferiori e non devono mai superare 0,050 (50 ms). Le soglie seguenti sono documentate nella guida alla risoluzione dei problemi di prestazioni di SQL Server:
- Minore di 10 ms: prestazioni ottimali
- Tra 10 - 20 ms: prestazioni discrete
- Tra 20 e 50 ms: prestazioni lente, richiede attenzione
- Maggiore di 50 ms: collo di bottiglia grave di I/O
Byte disco/sec: numero di byte al secondo che vengono trasferiti al o dal disco
Trasferimenti disco/sec: numero di operazioni di input e output al secondo (operazioni di I/O al secondo)
Quando il valore di % tempo di inattività è basso (10% o meno), significa che il disco è completamente utilizzato. In questo caso, gli ultimi due contatori di questo elenco, ovvero Byte disco/sec e Trasferimenti disco/sec, forniscono una buona indicazione della velocità effettiva massima dell'unità in byte e in operazioni di I/O al secondo, rispettivamente. La velocità effettiva di un'unità SAN è altamente variabile, a seconda del numero di spindle, della velocità delle unità e della velocità del canale. La scelta migliore consiste nel rivolgersi al fornitore SAN per informazioni sul numero di byte e di operazioni di I/O al secondo supportati dall'unità. Se il valore di % tempo di inattività è basso e i valori di questi due contatori non soddisfano la velocità effettiva prevista dell'unità, coinvolgere il fornitore SAN nella risoluzione dei problemi.
La Guida alla risoluzione dei problemi di prestazioni di SQL Server fornisce informazioni più approfondite sulla risoluzione dei problemi di prestazioni di SQL Server.
Contatori delle prestazioni di Operations Manager
Le sezioni seguenti descrivono i contatori delle prestazioni che è possibile usare per monitorare e risolvere i problemi relativi alle prestazioni di Operations Manager.
Ruolo del server gateway
Contatori generali delle prestazioni
Questi contatori indicano le prestazioni complessive del gateway:
Nome del contatore delle prestazioni |
---|
Processor(_Total)\% tempo processore |
Memoria\% Byte di cui è stato eseguito il commit in uso |
Interfaccia di rete (*)\Totale byte/sec |
LogicalDisk(*)\% Tempo di inattività |
LogicalDisk(*)\Avg. Disk Queue Length |
Contatori delle prestazioni generici dei processi di Operations Manager
Questi contatori indicano le prestazioni complessive dei processi di Operations Manager nel gateway:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Process(HealthService)\% Tempo processore | |
Processo (HealthService)\byte privati | A seconda del numero di agenti gestiti da questo gateway, questo numero può variare e potrebbe essere di diverse centinaia di megabyte |
Processo (HealthService)\Numero di thread | |
Processo (HealthService)\Byte virtuali | |
Processo (HealthService)\Working set | |
Process(MonitoringHost*)\% Tempo processore | |
Processo (MonitoringHost*)\byte privati | |
Processo (MonitoringHost*)\Numero di thread | |
Processo (MonitoringHost*)\Byte virtuali | |
Processo (MonitoringHost*)\Working set |
Contatori delle prestazioni specifici di Operations Manager
Questi contatori sono contatori specifici di Operations Manager che indicano le prestazioni di aspetti specifici di Operations Manager nel gateway:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Servizio integrità\numero dei flussi di lavoro | |
Gruppi di gestione Servizio integrità(*)\Caricamenti file attivi | Numero di trasferimenti di file che il gateway gestisce. Questo rappresenta il numero di file di Management Pack caricati negli agenti. Se questo valore rimane a un livello elevato per molto tempo e non sono attualmente in corso volumi elevati di importazione di Management Pack in un determinato momento, queste condizioni possono generare un problema che influisce sul trasferimento di file. |
Gruppi di gestione Servizio integrità(*)\% coda di invio in uso | Dimensioni della coda persistente. Se questo valore rimane superiore a 10 per molto tempo e non scende, indica che la coda è sottoposta a backup. Questa condizione è causata da un sistema operations manager in overload perché il server di gestione o il database è troppo occupato o è offline. |
Connettore OpsMgr\Byte ricevuti | Numero di byte di rete ricevuti dal gateway, ovvero il numero di byte in ingresso prima della decompressione. |
Connettore OpsMgr\Byte trasmessi | Numero di byte di rete inviati dal gateway, ovvero il numero di byte in uscita dopo la compressione. |
Connettore OpsMgr\Byte di dati ricevuti | Numero di byte di dati ricevuti dal gateway, ovvero la quantità di dati in ingresso dopo la decompressione. |
Connettore OpsMgr\Byte di dati trasmessi | Numero di byte di dati inviati dal gateway, ovvero la quantità di dati in uscita prima della compressione. |
Connettore OpsMgr\Connessioni aperte | Numero di connessioni aperte nel gateway. Questo numero deve essere uguale al numero di agenti o server di gestione direttamente connessi al gateway. |
Ruolo del server di gestione
Contatori generali delle prestazioni
Questi contatori indicano le prestazioni complessive del server di gestione:
Nome del contatore delle prestazioni |
---|
Processor(_Total)\% tempo processore |
Memoria\% Byte di cui è stato eseguito il commit in uso |
Interfaccia di rete (*)\Totale byte/sec |
LogicalDisk(*)\% Tempo di inattività |
LogicalDisk(*)\Avg. Disk Queue Length |
Contatori delle prestazioni generici dei processi di Operations Manager
Questi contatori indicano le prestazioni complessive dei processi di Operations Manager nel server di gestione:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Process(HealthService)\% Tempo processore | |
Processo (HealthService)\byte privati | A seconda del numero di agenti gestiti dal server di gestione, questo numero può variare e potrebbe essere di diverse centinaia di megabyte. |
Processo (HealthService)\Numero di thread | |
Processo (HealthService)\Byte virtuali | |
Processo (HealthService)\Working set | |
Process(MonitoringHost*)\% Tempo processore | |
Processo (MonitoringHost*)\byte privati | |
Processo (MonitoringHost*)\Numero di thread | |
Processo (MonitoringHost*)\Byte virtuali | |
Processo (MonitoringHost*)\Working set |
Contatori delle prestazioni specifici di Operations Manager
Questi contatori sono contatori specifici di Operations Manager che indicano le prestazioni di aspetti specifici di Operations Manager nel server di gestione:
Nome del contatore delle prestazioni | Descrizione |
---|---|
Servizio integrità\numero dei flussi di lavoro | Numero di flussi di lavoro in esecuzione in questo server di gestione. |
Gruppi di gestione Servizio integrità(*)\Caricamenti file attivi | Numero di trasferimenti di file gestiti dal server di gestione. Questo rappresenta il numero di file di Management Pack caricati negli agenti. Se questo valore rimane a un livello elevato per molto tempo e non sono attualmente in corso volumi elevati di importazione di Management Pack in un determinato momento, queste condizioni possono generare un problema che influisce sul trasferimento di file. |
Gruppi di gestione Servizio integrità(*)\% coda di invio in uso | Dimensioni della coda persistente. Se questo valore rimane superiore a 10 per molto tempo e non scende, indica che la coda è sottoposta a backup. Questa condizione è causata da un sistema Operations Manager in overload perché il sistema Operations Manager (ad esempio, il server di gestione radice) è troppo occupato o è offline. |
Gruppi di gestione Servizio integrità(*)\Frequenza elementi rimossi origine dati associata | Numero di elementi di dati eliminati dal server di gestione per le azioni di scrittura della raccolta di dati per il database o il data warehouse. Quando questo valore del contatore non 0 è , il server di gestione o il database è sovraccarico perché non è in grado di gestire l'elemento di dati in ingresso abbastanza velocemente o perché si verifica un burst di elementi di dati. Gli elementi di dati eliminati verranno inviati nuovamente dagli agenti. Al termine della situazione di overload o di picco, questi elementi di dati verranno inseriti nel database o nel data warehouse. |
Gruppi di gestione Servizio integrità(*)\Frequenza elementi in ingresso origine dati associata | Numero di elementi di dati ricevuti dal server di gestione per le azioni di scrittura della raccolta di dati per il database o il data warehouse. |
Gruppi di gestione Servizio integrità(*)\Frequenza elementi scritti origine dati associata | Numero di elementi di dati scritti dal server di gestione per le azioni di scrittura della raccolta di dati nel database o nel data warehouse. |
Connettore OpsMgr\Byte ricevuti | Numero di byte di rete ricevuti dal server di gestione, ovvero le dimensioni dei byte in ingresso prima della decompressione. |
Connettore OpsMgr\Byte trasmessi | Numero di byte di rete inviati dal server di gestione, ovvero le dimensioni dei byte in uscita dopo la compressione. |
Connettore OpsMgr\Byte di dati ricevuti | Numero di byte di dati ricevuti dal server di gestione, ovvero le dimensioni dei dati in ingresso dopo la decompressione. |
Connettore OpsMgr\Byte di dati trasmessi | Numero di byte di dati inviati dal server di gestione, ovvero le dimensioni dei dati in uscita prima della compressione. |
Connettore OpsMgr\Connessioni aperte | Numero di connessioni aperte nel server di gestione. Deve essere uguale al numero di agenti o server di gestione radice direttamente connessi. |
Moduli azioni di scrittura database OpsMgr\Dimensioni medie batch | Numero di elementi di dati o batch ricevuti dai moduli delle azioni di scrittura del database. Se questo numero è 5.000, è in corso un picco di elementi di dati. |
Moduli azioni di scrittura database OpsMgr\Durata media elaborazione | Numero di secondi impiegato da un'azione di scrittura del database per l'inserimento di un batch nel database. Se questo numero è spesso maggiore di 60, è in corso un problema di prestazioni di inserimento del database. |
Modulo di scrittura data warehouse OpsMgr(*)\Durata media elaborazione batch (ms) | Numero di millisecondi impiegato dall'azione di scrittura del data warehouse per inserire un batch di elementi di dati in un data warehouse. |
Modulo di scrittura data warehouse OpsMgr(*)\Dimensioni medie batch | Numero medio di elementi di dati o batch ricevuti dai moduli delle azioni di scrittura del data warehouse. |
Modulo di scrittura data warehouse OpsMgr(*)\Batch/sec | Numero di batch ricevuti dai moduli delle azioni di scrittura del data warehouse al secondo. |
Modulo di scrittura data warehouse OpsMgr(*)\Elementi di dati/sec | Numero di elementi di dati ricevuti dai moduli delle azioni di scrittura del data warehouse al secondo. |
Modulo di scrittura data warehouse OpsMgr(*)\Numero di elementi di dati rimossi | Numero di elementi di dati rimossi dai moduli delle azioni di scrittura del data warehouse. |
Modulo di scrittura data warehouse OpsMgr(*)\Numero totale di errori | Numero di errori che si sono verificati in un modulo delle azioni di scrittura del data warehouse. |