Solución de problemas de estados de agente gris en System Center Operations Manager
En este artículo se describe cómo solucionar problemas en los que un agente, un servidor de administración o una puerta de enlace no está disponible o atenuado en System Center Operations Manager (OpsMgr).
Versión original del producto: Microsoft System Center 2012 Operations Manager
Número de KB original: 2288515
Un agente, un servidor de administración o una puerta de enlace puede tener uno de los estados siguientes, como se indica en el color del nombre del agente y el icono del panel Supervisión .
State | Aspecto | Descripción |
---|---|---|
Healthy | Marca de verificación verde | El agente o el servidor de administración se está ejecutando normalmente. |
Crítico | Marca de verificación roja | Hay un problema en el agente o en el servidor de administración. |
Unknown | Nombre del agente gris, marca de verificación gris | El monitor del servicio de mantenimiento en el servidor de administración que supervisa el servicio de mantenimiento en el equipo supervisado ya no recibe latidos del agente. El monitor del servicio de mantenimiento había recibido latidos anteriormente y el estado se notificó como correcto. Esto también significa que los servidores de administración ya no reciben información del agente. Este problema puede producirse si el equipo que ejecuta el agente no se está ejecutando o hay problemas de conectividad. |
Unknown | Círculo verde, sin marca de verificación | El estado del elemento detectado es desconocido. No hay ningún monitor disponible para este elemento detectado específico. |
Causas de un estado gris
Un agente, un servidor de administración o una puerta de enlace pueden dejar de estar disponibles por cualquiera de los siguientes motivos:
- Error de latido
- Configuración no válida
- Error de los flujos de trabajo del sistema
- Problemas de rendimiento de la base de datos o del almacenamiento de datos de Operations Manager
- Errores de rendimiento del servidor de administración o del servidor de la puerta de enlace
- Problemas de red o de autenticación
- El servicio de mantenimiento no está en ejecución
Ámbito del problema
Antes de empezar a solucionar el problema del agente atenuado, primero debe comprender la topología de Operations Manager y, a continuación, definir el ámbito del problema. Las siguientes preguntas pueden ayudarle a definir el ámbito del problema:
- ¿Cuántos agentes se ven afectados?
- ¿Están experimentando los agentes el problema en el mismo segmento de red?
- ¿Los agentes informan al mismo servidor de administración?
- ¿Con qué frecuencia entran y permanecen en un estado gris?
- ¿Cómo se recupera normalmente de esta situación (por ejemplo, reiniciar el servicio de mantenimiento del agente, borrar la memoria caché, confiar en la recuperación automática)?
- ¿Se generan las alertas de error de latido para estos agentes?
- ¿Este problema se produce durante una hora específica del día?
- ¿Este problema persiste si conmuta por error estos agentes a otro servidor de administración o puerta de enlace?
- ¿Cuándo comenzó este problema?
- ¿Se realizaron cambios en los agentes, los servidores de administración o la puerta de enlace o el grupo de administración?
- ¿Son los agentes afectados los sistemas en clúster de Windows?
- ¿Se excluye la carpeta Servicio de mantenimiento Estado del examen antivirus?
Estrategia de solución de problemas
La estrategia de solución de problemas estará determinada por qué componente está inactivo, donde ese componente se encuentra dentro de la topología y la extensión del problema. Tenga en cuenta las siguientes condiciones:
- Si los agentes que informan a un servidor de administración o puerta de enlace determinados no están disponibles, la solución de problemas debe iniciarse en el nivel de puerta de enlace o servidor de administración.
- Si las puertas de enlace que informan a un servidor de administración determinado no están disponibles, la solución de problemas debe iniciarse en el nivel de servidor de administración.
- En el caso de los sistemas sin agente, para los dispositivos de red y para los servidores Unix y Linux, la solución de problemas debe iniciarse en el agente, el servidor de administración o la puerta de enlace que supervisa estos objetos.
- La solución de problemas normalmente se inicia en el nivel inmediatamente superior al componente no disponible.
Escenario 1
Solo algunos agentes se ven afectados por el problema. Estos agentes informan a distintos servidores de administración. Los agentes permanecen sin estar disponibles periódicamente. Aunque puede borrar la caché del agente para ayudar a resolver el problema temporalmente, el problema se repite después de unos días.
Resolución del escenario 1
Para resolver el problema en este escenario, siga estos pasos:
- Aplique la revisión adecuada a los sistemas operativos afectados.
- Excluya la memoria caché del agente del examen antivirus. Para obtener más información, consulte Recomendaciones para exclusiones de antivirus relacionadas con Operations Manager.
- Detenga el servicio de mantenimiento.
- Borre la caché del agente.
- Inicie el servicio de mantenimiento.
Escenario 2
Solo algunos agentes se ven afectados por el problema. Estos agentes informan a distintos servidores de administración. Los agentes permanecen inactivos constantemente. Aunque puede borrar la memoria caché del agente, esto no resuelve el problema.
Resolución del escenario 2
Para resolver el problema en este escenario, siga estos pasos:
Determine si el servicio de mantenimiento está activado y se está ejecutando actualmente en el servidor de administración o la puerta de enlace. Si el servicio de mantenimiento ha dejado de responder, genere un volcado de ADPlus en un modo de bloqueo del servicio para ayudar a determinar la causa del problema. Para obtener más información, vea Cómo usar ADPlus.vbs para solucionar problemas de "bloqueos" y "bloqueos".
Examine el registro de eventos de Operations Manager en el agente para buscar cualquiera de los eventos siguientes:
Id. de evento: 1102
Origen del evento: HealthService
Descripción del evento:
No se puede inicializar la regla o supervisar "%4" que se ejecuta por ejemplo "%3" con id:"%2" y no se cargará. Grupo de administración "%1"Id. de evento: 1103
Origen del evento: HealthService
Descripción del evento:
Resumen: %2 reglas/monitores no se pudieron cargar y se descargaron, %3 de ellas alcanzó el límite de errores que impide la recarga automática. Grupo de administración "%1". Este es solo el evento de resumen; consulte otros eventos con descripciones de reglas o monitores descargados.Id. de evento: 1104
Origen del evento: HealthService
Descripción del evento:
No se puede resolver el perfil runAs en el flujo de trabajo "%4", que se ejecuta por ejemplo "%3" con id:"%2". El flujo de trabajo no se cargará. Grupo de administración "%1"Id. de evento: 1105
Origen del evento: HealthService
Descripción del evento:
Error de coincidencia de tipos para el perfil de RunAs en el flujo de trabajo "%4", que se ejecuta por ejemplo "%3" con id:"%2". El flujo de trabajo no se cargará. Grupo de administración "%1"Id. de evento: 1106
Origen del evento: HealthService
Descripción del evento:
No se puede acceder al perfil runAs de texto sin formato en el flujo de trabajo "%4", ejecutándose por ejemplo "%3" con id:"%2". El flujo de trabajo no se cargará. Grupo de administración "%1"Id. de evento: 1107
Origen del evento: HealthService
Descripción del evento:
No se define la cuenta del perfil de runAs en el flujo de trabajo "%4", que se ejecuta por ejemplo "%3" con id:"%2". El flujo de trabajo no se cargará. Asocie una cuenta con el perfil. Grupo de administración "%1"Id. de evento: 1108
Origen del evento: HealthService
Descripción del evento:
No se puede resolver una cuenta especificada en el perfil de ejecución "%7". En concreto, la cuenta se usa en la invalidación de referencia segura "%6". %n%n Esto puede deberse a que la cuenta no se ha configurado para distribuirse a este equipo. Para resolver este problema, necesita abrir el perfil de ejecución especificado más abajo, localizar la entrada de la cuenta especificada por su correspondiente SSID, y optar por distribuir la cuenta en el equipo, si es aplicable, o cambiar la configuración en el perfil de manera que el objeto de destino no use la cuenta especificada. %n%nGrupo de administración: %1 %nEjecutar como perfil: %7 %nNombre SecureReferenceOverride: %6 %nId. SecureReferenceOverride: %4 %nNombre de objeto: %3 %n Id. de objeto: %2 %nCuenta SSID: %5Identificador de evento: 4000
Origen del evento: HealthService
Descripción del evento:
Un host de supervisión no responde o se ha bloqueado. El código de estado del error del host era %1.Identificador de evento: 21016
Origen de eventos: Conector de OpsMgr
Descripción del evento:
OpsMgr no pudo configurar un canal de comunicaciones en %1 y no hay hosts de conmutación por error. La comunicación se reanudará cuando %1 esté disponible y se permita la comunicación desde este equipo.Identificador de evento: 21006
Origen de eventos: Conector de OpsMgr
Descripción del evento:
El conector opsMgr no pudo conectarse a %1:%2. El código de error es %3(%4). Compruebe que hay conectividad de red, el servidor se está ejecutando y ha registrado su puerto de escucha y no hay firewalls que bloqueen el tráfico al destino.Identificador de evento: 20070
Origen de eventos: Conector de OpsMgr
Descripción del evento:
El conector opsMgr se conectó a %1, pero la conexión se cerró inmediatamente después de la autenticación. La causa más probable de este error es que el agente no está autorizado para comunicarse con el servidor o que el servidor no ha recibido la configuración. Compruebe el registro de eventos en el servidor para ver si hay eventos de 20000, lo que indica que los agentes que no están aprobados están intentando conectarse.Identificador de evento: 20051
Origen de eventos: Conector de OpsMgr
Descripción del evento:
No se pudo cargar el certificado especificado porque el certificado no es válido actualmente. Compruebe que la hora del sistema es correcta y vuelva a emitir el certificado si es necesario%n Hora de inicio válida del certificado: %1%n Hora de finalización válida del certificado: %2Origen del evento: ESE
Categoría de evento: Administrador de transacciones
Identificador de evento: 623
Descripción: HealthService (<PID>) El almacén de versiones para la instancia de instancia<> ("<name>") ha alcanzado su tamaño máximo de <valor> Mb. Es probable que una transacción de larga duración impida la limpieza del almacén de versiones y la causa de que se compile en tamaño. Las actualizaciones se rechazarán hasta que la transacción de ejecución prolongada se haya confirmado o revertido por completo. Posible transacción de larga duración:
SessionId: <value>
Contexto de sesión: <valor>
ThreadId de contexto de sesión: <valor>.
Limpieza: <valor>Si localiza los siguientes eventos específicos, siga estas instrucciones:
Eventos 1102 y 1103: estos eventos indican que algunos de los flujos de trabajo no se pudieron cargar. Si se trata de los flujos de trabajo principales del sistema, estos eventos pueden ser los que provoquen el problema. En este caso, céntrese en resolver estos eventos.
Eventos 1104, 1105, 1106, 1107 y 1108: estos eventos pueden provocar que se produzcan los eventos 1102 y 1103. Normalmente, esto sucede debido a que hay cuentas de ejecución mal configuradas. Por ejemplo, si tiene las cuentas de tipo Run As están configuradas para usarlas con la clase incorrecta o si no están configuradas para distribuirse al agente.
Evento 4000: Este evento indica que el proceso de Monitoringhost.exe se bloqueó. Si este problema se debe a una falta de coincidencia de DLL o a la falta de claves del Registro, es posible que pueda resolver el problema reinstalar el agente. Si el problema persiste, intente resolverlo mediante los métodos siguientes:
- Ejecute una captura del Monitor de procesos hasta que se bloquee el proceso. Para obtener más información, consulte Process Monitor v3.53.
- Genere un volcado de ADPlus en modo de bloqueo. Para obtener más información, vea Cómo usar ADPlus.vbs para solucionar problemas de "bloqueos" y "bloqueos".
Id. de evento 21006: este evento indica que existen problemas de comunicación entre el agente y el servidor de administración. Si el agente usa un certificado para la autenticación mutua, compruebe que el certificado no ha expirado y que el agente usa el certificado correcto. Si se usa Kerberos, compruebe que el agente puede comunicarse con Active Directory. Si la autenticación funciona correctamente, esto puede significar que los paquetes del agente no llegan al servidor de administración ni a la puerta de enlace. Intente establecer una telnet en el puerto 5723 del agente al servidor de administración. Además, ejecute un seguimiento de red simultáneo entre el agente y el servidor de administración mientras reproduce los errores de comunicación. Esto puede ayudarle a determinar si los paquetes están llegando al servidor de administración y si algún dispositivo entre los dos componentes está intentando optimizar el tráfico o está quitando algunos paquetes. Para obtener más información, consulte Recopilación de datos mediante Network Monitor.
Id. de evento 623: este evento suele producirse en un entorno de Operations Manager grande en el que un servidor de administración o un equipo agente administra muchos flujos de trabajo. Para obtener más información, consulte Uno o varios servidores de administración y sus dispositivos administrados están atenuados en la consola de Operations Manager.
Escenario 3
Todos los agentes que informan a un servidor de administración o puerta de enlace determinados no están disponibles.
Resolución del escenario 3
Para resolver el problema en este escenario, siga estos pasos:
Intente determinar qué tipo de cargas de trabajo supervisa el servidor de administración o la puerta de enlace. Estas cargas de trabajo pueden incluir dispositivos de red, agentes multiplataforma, transacciones sintéticas, agentes de Windows y equipos sin agente.
Determine si el servicio de mantenimiento se ejecuta en el servidor de administración o la puerta de enlace.
Determine si el servidor de administración se está ejecutando en modo de mantenimiento. Si es necesario, quite el servidor del modo de mantenimiento.
Examine el registro de eventos de Operations Manager en el agente para cualquiera de los eventos enumerados en el escenario 2. Si hay el identificador de evento 21006, siga las mismas instrucciones que se mencionan en Resolución para el escenario 2. Además, en este caso, este evento indica que el servidor de administración o la puerta de enlace no pueden comunicarse con su servidor primario. Para una puerta de enlace, el servidor primario puede ser cualquier servidor de administración. (Consulte el paso 3 del Resolución del escenario 2).
Examine el registro de eventos de Operations Manager para ver los siguientes eventos. Estos eventos suelen indicar que existen problemas de rendimiento en el servidor de administración o Microsoft SQL Server que hospeda la
OperationsManager
base de datos oOperationsManagerDW
:Id. de evento: 2115
Origen del evento: HealthService
Descripción del evento:
Un origen de datos de enlace en el grupo de administración %1 ha publicado elementos en el flujo de trabajo, pero no ha recibido una respuesta en %5 segundos. Esto indica un problema funcional o de rendimiento con el flujo de trabajo.%n Id. de flujo de trabajo : %2%n Instancia : %3%n Id. de instancia: %4%nIdentificador de evento: 5300
Origen del evento: HealthService
Descripción del evento:
El servicio de mantenimiento local no es correcto. El flujo de cambio de estado de entidad se detiene con confirmación pendiente. %n%nGrupo de administración: %2 %n Id. de grupo de administración: %1Id. de evento: 4506
Origen del evento: HealthService
Descripción del evento: Operations Manager
Los datos se quitaron debido a demasiados datos pendientes en la regla "%2" que se ejecutan por ejemplo "%3" con id:"%4" en el grupo de administración "%1".Id. de evento: 31551
Origen de eventos: módulos de Servicio de mantenimiento
Descripción del evento:
No se pudieron almacenar datos en el almacenamiento de datos. La operación se reintentará.%rException '%5': %6 %n%nOne o más flujos de trabajo se vieron afectados por esto. %n%nNombre de flujo de trabajo: %2 %nNombre de la aplicación: %3 %nInstance ID: %4 %nGrupo de administración: %1Identificador de evento: 31552
Origen de eventos: módulos de Servicio de mantenimiento
Descripción del evento:
No se pudieron almacenar datos en el almacenamiento de datos.%rException '%5': %6 %n%nOne o más flujos de trabajo se vieron afectados por esto. %n%nNombre de flujo de trabajo: %2 %nNombre de la aplicación: %3 %nInstance ID: %4 %nGrupo de administración: %1Identificador de evento: 31553
Origen de eventos: módulos de Servicio de mantenimiento
Descripción del evento:
Los datos se escribieron en el área de almacenamiento provisional de Almacenamiento de datos, pero se produjo un error en el procesamiento en una de las operaciones posteriores.%rException '%5': %6 %n%nOne o más flujos de trabajo se vieron afectados por esto. %n%nNombre de flujo de trabajo: %2 %nNombre de la aplicación: %3 %nInstance ID: %4 %nGrupo de administración: %1Identificador de evento: 31557
Origen de eventos: módulos de Servicio de mantenimiento
Descripción del evento:
No se pudo obtener información de estado del proceso de sincronización de la base de datos de Almacenamiento de datos. La operación se reintentará.%rException '%5': %6 %n%nOne o más flujos de trabajo se vieron afectados por esto. %n%nNombre de flujo de trabajo: %2 %nNombre de la aplicación: %3 %nInstance ID: %4 %nGrupo de administración: %1El identificador de evento 3155X también se puede registrar debido a configuraciones incorrectas de la cuenta de ejecución o a permisos que faltan para las cuentas de ejecución.
Nota:
Para solucionar problemas de rendimiento del servidor de administración o de la puerta de enlace y el rendimiento de SQL Server, consulte la sección Resolución del escenario 4 .
Escenario 4
Todos los agentes que informan a un servidor de administración específico alternan intermitentemente entre estados correctos y grises. O bien, todos los agentes del entorno alternan intermitentemente entre estados correctos y grises.
Resolución del escenario 4
Para resolver el problema, determine primero la causa del problema. Entre las causas comunes de la falta de disponibilidad temporal del servidor se incluyen las siguientes:
- El servidor primario de los agentes está temporalmente sin conexión.
- Los agentes inundan el servidor de administración con datos operativos, como alertas, estados, detecciones, etc. Esto puede provocar un mayor uso de recursos del sistema en la base de datos de Operations Manager y en los servidores de Operations Manager.
- Las interrupciones de red provocaron un error de comunicación temporal entre el servidor primario y los agentes.
- Se produjeron cambios en el módulo de administración (MP). En la consola de Operations Manager, estos cambios requieren una configuración de Operations Manager y una redistribución de MP a los agentes. Si el cambio afecta a una base de agente mayor, esto puede provocar un mayor uso del uso de recursos del sistema en la base de datos de Operations Manager y en los servidores de Operations Manager.
La clave para solucionar problemas en estos escenarios es comprender la duración de la falta de disponibilidad del servidor y la hora del día durante la cual se produjo. Esto le ayudará a restringir rápidamente el ámbito del problema.
Solución de problemas de rendimiento del servidor de administración y la puerta de enlace
Servidor de administración
Durante una ráfaga de actualización de configuración (causada por la importación y detección de MP), los cuellos de botella típicos son, en primer lugar, la CPU y el segundo, la E/S del disco de instalación de Operations Manager. El servidor de administración se encarga de reenviar los archivos de configuración a los agentes de destino.
En el caso de la recopilación de datos operativos, los cuellos de botella suelen deberse a la CPU. Aunque las tareas de E/S del disco también podrían estar trabajando en su capacidad máxima, esto no es tan probable. El servidor de administración se encarga de descomprimir y descifrar los datos operativos entrantes e insertarlos en la base de datos operativa. Este también devuelve confirmaciones (ACK) a los agentes o puertas de enlace después de haber recibido datos operativos y, además, usa la optimización de puesta en cola de disco para almacenar temporalmente estas ACK salientes.
Gateway
La puerta de enlace está enlazada a la CPU y enlazada a E/S. Cuando la puerta de enlace retransmite una gran cantidad de datos, las operaciones de CPU y E/S pueden mostrar un uso elevado. La mayoría del uso de cpu se debe a la descompresión, compresión, cifrado y descifrado de los datos entrantes, y también por la transferencia de esos datos. Todos los datos recibidos por la puerta de enlace y de los agentes se almacenan en una cola persistente en el disco, que el servicio de mantenimiento de la puerta de enlace va a leer y reenviar al servidor de administración. Esto puede provocar un uso intensivo del disco. Este uso puede ser significativo cuando la puerta de enlace se desconecta temporalmente y, a continuación, debe controlar los datos acumulados del agente que generaron los agentes e intentaron enviar cuando la puerta de enlace todavía estaba sin conexión.
En esta situación, para solucionar el problema, recopile la siguiente información para cada servidor de administración o puerta de enlace a los que les afecta:
Versión exacta de Windows, edición y número de compilación
Número de procesadores
Cantidad de RAM
Unidad que contiene la carpeta Servicio de mantenimiento State
Si el software antivirus está configurado para excluir el almacén de Servicio de mantenimiento
Nota:
Para obtener más información, consulte Recomendaciones para exclusiones de antivirus relacionadas con Operations Manager.
Nivel RAID (
0
,1
,5
0+1
o1+0
) para la unidad que usa el estado de Servicio de mantenimientoNúmero de discos usados para RAID
Si la memoria caché de escritura con respaldo de batería está habilitada en el controlador de matriz
Solución de problemas de rendimiento de SQL Server
Base de datos operativa (OperationsManager)
Para la base de datos OperationsManager
, el cuello de botella más probable es la matriz de discos. Si la matriz de discos no tiene capacidad máxima de E/S, lo más probable es que el siguiente cuello de botella sea la CPU. La base de datos experimentará ralentizaciones de forma ocasional y tormentas de datos operativos (incidencias altas de eventos, alertas y datos de rendimiento o cambios de estado que persisten durante un tiempo relativamente largo). Normalmente, una ráfaga corta no provoca ningún retraso significativo durante un período de tiempo prolongado.
Durante la inserción de datos operativa, los discos de base de datos se usan principalmente para escrituras. El uso de la CPU se debe al abandono de SQL Server. Esto puede ocurrir cuando tiene consultas grandes y complejas, inserción intensiva de datos y limpieza de tablas grandes (que, de forma predeterminada, se produce a medianoche). Normalmente, incluso la limpieza de grandes eventos y tablas de datos de rendimiento no consume recursos excesivos de CPU o disco. Sin embargo, la limpieza de las tablas de cambios de estado y alerta puede necesitar un uso intensivo de la CPU para tablas grandes.
La base de datos también está enlazada a la CPU cuando controla las ráfagas de redistribución de configuración, lo que se debe a las importaciones de MP o a un cambio de espacio de instancia grande. En estos casos, el servicio de configuración consulta la base de datos para la configuración del nuevo agente. Normalmente, esto hace que se produzcan picos de CPU en la base de datos antes de que el servicio envíe las actualizaciones de configuración a los agentes.
Almacenamiento de datos (OperationsManagerDW)
Para la base de datos OperationsManagerDW
, el cuello de botella más probable es la matriz de discos. Esto suele ocurrir debido a inserciones de datos operativos de gran tamaño. En estos casos, los discos están ocupados realizando escrituras principalmente. Normalmente, los discos realizan pocas lecturas, excepto para controlar las vistas de informes generadas de forma manual, ya que ejecutan consultas en el almacenamiento de datos.
El uso de la CPU se debe al abandono de SQL Server. Los picos de CPU pueden producirse durante la actividad de creación de particiones intensivas (cuando las tablas se vuelven grandes y, a continuación, se crean particiones), la generación de informes complejos y grandes cantidades de alertas en la base de datos, con las que el almacenamiento de datos debe sincronizarse constantemente.
Solución general de problemas
En esta situación, para solucionar el problema, recopile la siguiente información para cada servidor de administración o puerta de enlace a los que les afecta:
Versión exacta de Windows, edición y número de compilación
Número de procesadores
Cantidad de RAM
Cantidad de memoria asignada a SQL Server
Si SQL Server es de 32 bits y está habilitado AWE
Puede encontrar la mayoría de esta información en SQL Server Management Studio o en SQL Server Enterprise Manager. Para ello, abra la ventana Propiedades del servidor y, a continuación, seleccione las pestañas General y Memoria. La pestaña General incluye la versión de SQL Server, la versión de Windows, la plataforma, la cantidad de RAM y el número de procesadores. La pestaña Memoria incluye la memoria asignada a SQL Server. En Microsoft SQL Server 2008, la pestaña Memoria también incluye la opción AWE.
Si el sistema operativo es de 32 bits y la RAM es de 4 GB o más, compruebe si los conmutadores
/pae
o/3gb
existen en el Boot.ini. .edmx. Estas opciones se podrían configurar de manera incorrecta si el servidor se instaló originalmente con 4 GB o menos de RAM y si la RAM se actualizó más adelante.Para los servidores de 32 bits que tienen 4 GB de RAM, el conmutador
/3gb
en Boot.ini aumenta la cantidad de memoria que SQL Server puede abordar (de 2 GB a 3 GB). Para los servidores de 32 bits que tienen más de 4 GB de RAM, el conmutador/3gb
en Boot.ini limita la cantidad de memoria que SQL Server puede abordar. Para estos sistemas, agregue el conmutador/pae
a Boot.ini y, a continuación, habilite AWE en SQL Server.En un sistema de varios procesadores, active la configuración Grado máximo de paralelismo (MAXDOP). En SQL Server 2008, esta opción se encuentra en la pestaña Avanzad del cuadro de diálogo Propiedades del servidor.
El valor predeterminado es 0, lo que significa que se usarán todos los procesadores disponibles. Un valor de 0 es adecuado para los servidores que tienen ocho procesadores o menos. En el caso de los servidores que tienen más de ocho procesadores, el tiempo que tarda SQL Server en coordinar el uso de todos los procesadores puede ser contraproducente. Por lo tanto, para los servidores que tienen más de ocho procesadores, normalmente debe establecer grado máximo de paralelismo en un valor de 8. Para ello, ejecute el siguiente comando en el Analizador de consultas SQL:
sp_configure 'show advanced options', 1 GO RECONFIGURE WITH OVERRIDE GO sp_configure 'max degree of parallelism', 8 GO RECONFIGURE WITH OVERRIDE GO
Letras de unidad que contienen almacenamiento de datos, base de datos de Operations Manager y archivos Tempdb
Si el software antivirus está configurado para excluir archivos de registro y datos de SQL (el examen de archivos de base de datos SQL Server con software antivirus puede degradar el rendimiento).
Cantidad de espacio libre en unidades que contienen almacenamiento de datos, base de datos de Operations Manager y archivos Tempdb
Tipo de almacenamiento (SAN o local)
Nivel RAID (0, 1, 5, 0+1 o 1+0) para las unidades que usa SQL Server
Si se usa el almacenamiento SAN: número de ejes en cada LUN que usa SQL Server
Si se usa el módulo de administración convertido de Exchange 2007 o se ha usado alguna vez: número de filas de la
LocalizedText
tabla de la base de datos de Operations Manager y en laEventPublisher
tabla de la base de datos de almacenamiento de datosPara determinar los importes de fila, ejecute los siguientes comandos:
USE OperationsManager SELECT COUNT(*) FROM LocalizedText USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
Contadores para identificar la presión de memoria
Nombre de contador de rendimiento | Descripción |
---|---|
MSSQL$<instance>: Administrador de búferes: duración prevista de la página | Cuánto tiempo se conservan las páginas en el grupo de búferes. Si este valor es inferior a 300 segundos, puede indicar que el servidor puede usar más memoria. También podría resultar de la fragmentación del índice. |
MSSQL$<instance>: Buffer Manager: Escrituras diferidas por segundo | El escritor diferido libera espacio en el búfer moviendo páginas al disco. Por lo general, el valor no debe superar constantemente las 20 escrituras por segundo. Lo ideal es que esté cerca de cero. |
Memoria, Mbytes disponibles | Los valores inferiores a 100 MB pueden indicar presión de memoria. La presión de memoria está claramente presente cuando esta cantidad es inferior a 10 MB. |
Proceso: Bytes privados: _Total | Esta es la cantidad de memoria (física y de página) que usan todos los procesos combinados. |
Proceso: Espacio de trabajo: _Total | Esta es la cantidad de memoria física que usan todos los procesos combinados. Si el valor de este contador se encuentra significativamente por debajo del valor de Process: Private Bytes: _Total , indica que los procesos están paginando demasiado. Es probable que una diferencia de más del 10 % sea significativa. |
Contadores para identificar la presión en disco
Capture estos contadores de disco físico para todas las unidades que contienen los archivos de datos o de registro de SQL:
% de tiempo de inactividad: cuánto tiempo de inactividad del disco se notifica. Cualquier valor inferior al 50 por ciento podría indicar un cuello de botella en el disco.
Promedio de longitud de la cola de disco: este valor no debe superar el doble del número de ejes que se encuentran en un número de unidad lógica. Por ejemplo, si un número de unidad lógica tiene 25 ejes, se acepta un valor de 50. Sin embargo, si un número de unidad lógica tiene 10 ejes, un valor de 25 es demasiado alto. Puede usar las siguientes fórmulas basadas en el nivel RAID y el número de discos en la configuración RAID:
RAID 0: todos los discos funcionan en un conjunto RAID 0
Average Disk Queue Length<= # (Discos de la matriz) *2
RAID 1: la mitad de los discos funcionan; por lo tanto, solo se puede contar la mitad de ellos para la cola de disco
Promedio de longitud< de cola de disco= # (discos en la matriz/2) *2
RAID 10: la mitad de los discos funcionan; por lo tanto, solo se puede contar la mitad de ellos para la cola de disco
Promedio de longitud< de cola de disco= # (discos en la matriz/2) *2
RAID 5: todos los discos funcionan en un conjunto RAID 5
Promedio de longitud< de cola de disco= # Discos de la matriz *2
Promedio de segundos de disco o transferencia: número de segundos necesarios para completar una E/S de disco
Promedio de segundos de disco o lectura: tiempo promedio necesario, en segundos, para leer datos del disco
Promedio de segundos de disco o escritura: tiempo promedio necesario, en segundos, para escribir datos en el disco
Los tres últimos contadores de esta lista deben tener constantemente valores de aproximadamente 0,020 (20 ms) o menos, y nunca deben superar el valor de 0,050 (50 ms). Los umbrales siguientes se documentan en la guía de solución de problemas de rendimiento de SQL Server:
- Menos de 10 ms: muy bueno
- Entre 10 y 20 ms: bueno
- Entre 20 y 50 ms: lento, necesita atención
- Mayor que 50 ms: cuello de botella de E/S serio
Bytes de disco por segundo: cantidad de bytes que se transfieren hacia o desde el disco por segundo
Transferencias de disco por segundo: número de operaciones de entrada y salida por segundo (IOPS)
Si el porcentaje de tiempo de inactividad es bajo (10 por ciento o menos), significa que el disco se utiliza por completo. En este caso, los dos últimos contadores de esta lista (Bytes de disco por segundo y Transferencias de disco por segundo) proporcionan una indicación buena del rendimiento máximo de la unidad en bytes y en IOPS, respectivamente. El rendimiento de una unidad SAN es muy variable, según el número de ejes, la velocidad de las unidades y la velocidad del canal. La mejor opción es comprobarlo con el proveedor de SAN, para así averiguar cuántos bytes e IOPS debe admitir la unidad. Si el porcentaje de tiempo de inactividad es bajo y los valores de estos dos contadores no cumplen el rendimiento esperado de la unidad, póngase en contacto con el proveedor de SAN para solucionar el problema.
La Guía de solución de problemas de rendimiento de SQL Server proporciona información más detallada sobre la solución de problemas de rendimiento de SQL Server.
Contadores de rendimiento de Operations Manager
En las secciones siguientes se describen los contadores de rendimiento que puede usar para supervisar y solucionar problemas de rendimiento de Operations Manager.
Rol de servidor de puerta de enlace
Contadores de rendimiento generales
Estos contadores indican el rendimiento general de la puerta de enlace:
Nombre de contador de rendimiento |
---|
Processor(_Total)\% de tiempo de procesador |
\Memoria\% de bytes confirmados en uso |
Network Interface(*)\Bytes Total/sec |
LogicalDisk(*)\% tiempo de inactividad |
LogicalDisk(*)\Avg. Disk Queue Length |
Contadores de rendimiento genéricos del proceso de Operations Manager
Estos contadores indican el rendimiento general de los procesos de Operations Manager en la puerta de enlace:
Nombre de contador de rendimiento | Descripción |
---|---|
Process(HealthService)\% tiempo de procesador | |
Process(HealthService)\Bytes privados | Dependiendo del número de agentes que administra esta puerta de enlace, este número puede variar y podría ser varios cientos de megabytes. |
Proceso(HealthService)\Número de subprocesos | |
Proceso(HealthService)\Bytes virtuales | |
Proceso(HealthService)\Conjunto de trabajo | |
Process(MonitoringHost*)\% tiempo de procesador | |
Process(MonitoringHost*)\Bytes privados | |
Proceso(MonitoringHost*)\Número de subprocesos | |
Proceso(MonitoringHost*)\Bytes virtuales | |
Proceso(MonitoringHost*)\Conjunto de trabajo |
Contadores de rendimiento específicos de Operations Manager
Estos contadores son contadores específicos de Operations Manager que indican el rendimiento de aspectos específicos de Operations Manager en la puerta de enlace:
Nombre de contador de rendimiento | Descripción |
---|---|
Servicio de mantenimiento\Recuento de flujos de trabajo | |
Grupos de administración del servicio de mantenimiento(*)\Procesos de carga de archivos activos | Número de transferencias de archivos que controla esta puerta de enlace. Es decir, representa el número de archivos de módulo de administración que se están cargando en agentes. Si este valor permanece en un nivel alto durante mucho tiempo sin que ocurran muchos procesos de importación de módulos de administración en un momento dado, estas condiciones podrían generar un problema que afecte a las transferencias de archivos. |
Grupos de administración del servicio de mantenimiento(*)\Porcentaje usado de la cola de envío | Tamaño de la cola persistente. Si este se mantiene mayor que 10 durante mucho tiempo sin bajar, esto significará que se ha hecho una copia de seguridad de la cola. Esta condición se debe a un sistema de Operations Manager sobrecargado porque el servidor de administración o la base de datos están demasiado ocupados o están sin conexión. |
Conector de OpsMgr\Bytes recibidos | Número de bytes de red recibidos por la puerta de enlace, es decir, el número de bytes entrantes antes de la descompresión. |
Conector de OpsMgr\Bytes transmitidos | Número de bytes de red enviados por la puerta de enlace, es decir, el número de bytes salientes después de la compresión. |
Conector de OpsMgr\Bytes de los datos recibidos | Número de bytes de datos recibidos por la puerta de enlace, es decir, la cantidad de datos entrantes después de la descompresión. |
Conector de OpsMgr\Bytes de los datos transmitidos | Número de bytes de datos enviados por la puerta de enlace, es decir, la cantidad de datos salientes antes de la compresión. |
Conector de OpsMgr\Conexiones abiertas | Número de conexiones abiertas en la puerta de enlace. Este número debe ser el mismo que el número de agentes o servidores de administración que están conectados directamente a la puerta de enlace. |
Rol de servidor de administración
Contadores de rendimiento generales
Estos contadores indican el rendimiento general del servidor de administración:
Nombre de contador de rendimiento |
---|
Processor(_Total)\% de tiempo de procesador |
\Memoria\% de bytes confirmados en uso |
Network Interface(*)\Bytes Total/sec |
LogicalDisk(*)\% tiempo de inactividad |
LogicalDisk(*)\Avg. Disk Queue Length |
Contadores de rendimiento genéricos del proceso de Operations Manager
Utilice los siguientes contadores para consultar el rendimiento general de los procesos de Operations Manager en el servidor de administración:
Nombre de contador de rendimiento | Descripción |
---|---|
Process(HealthService)\% tiempo de procesador | |
Process(HealthService)\Bytes privados | En función del número de agentes que administre un servidor de administración, este número puede variar y podría equivaler a varios cientos de megabytes. |
Proceso(HealthService)\Número de subprocesos | |
Proceso(HealthService)\Bytes virtuales | |
Proceso(HealthService)\Conjunto de trabajo | |
Process(MonitoringHost*)\% tiempo de procesador | |
Process(MonitoringHost*)\Bytes privados | |
Proceso(MonitoringHost*)\Número de subprocesos | |
Proceso(MonitoringHost*)\Bytes virtuales | |
Proceso(MonitoringHost*)\Conjunto de trabajo |
Contadores de rendimiento específicos de Operations Manager
Utilice los siguientes contadores específicos de Operations Manager para consultar el rendimiento de los aspectos específicos de Operations Manager en el servidor de administración:
Nombre de contador de rendimiento | Descripción |
---|---|
Servicio de mantenimiento\Recuento de flujos de trabajo | El valor de este contador indica el número de flujos de trabajo que se están ejecutando en un servidor de administración. |
Grupos de administración del servicio de mantenimiento(*)\Procesos de carga de archivos activos | El valor de este contador indica el número de transferencias de archivos que un servidor de administración está manejando. Es decir, representa el número de archivos de módulo de administración que se están cargando en agentes. Si este valor permanece en un nivel alto durante mucho tiempo sin que ocurran muchos procesos de importación de módulos de administración en un momento dado, estas condiciones podrían generar un problema que afecte a las transferencias de archivos. |
Grupos de administración del servicio de mantenimiento(*)\Porcentaje usado de la cola de envío | El valor de este contador indica el tamaño de la cola persistente. Si este se mantiene mayor que 10 durante mucho tiempo sin bajar, esto significará que se ha hecho una copia de seguridad de la cola. Esta condición se debe a que el sistema de Operations Manager esté sobrecargado porque este (por ejemplo: el servidor de administración raíz) esté demasiado ocupado o sin conexión. |
Grupos de administración del servicio de mantenimiento(*)\Frecuencia de anulación de elementos de orígenes de datos de enlace | El valor de este contador indica el número de elementos de datos que el servidor de administración anula durante las acciones de escritura de recopilación de datos de bases de datos o almacenamientos de datos. Cuando este valor de contador no 0 es , el servidor de administración o la base de datos se sobrecarga porque no puede controlar el elemento de datos entrante lo suficientemente rápido como o porque se está produciendo una ráfaga de elemento de datos. Los agentes volverán a enviar los elementos de datos que se anulen. Una vez finalizada la situación de sobrecarga o ráfaga, estos elementos de datos se insertarán en la base de datos o en el almacenamiento de datos. |
Grupos de administración del servicio de estado\Frecuencia de entrada de elementos de orígenes de datos de enlace | El valor de este contador indica el número de elementos de datos que el servidor de administración recibe durante las acciones de escritura de recopilación de datos de bases de datos o almacenamientos de datos. |
Grupos de administración del servicio de mantenimiento(*)\Frecuencia de publicación de elementos de orígenes de datos de enlace | El valor de este contador indica el número de elementos de datos que el servidor de administración escribe en las bases de datos o los almacenamientos de datos durante las acciones de escritura de recopilación de datos. |
Conector de OpsMgr\Bytes recibidos | El valor de este contador indica el número de bytes de red que recibe un servidor de administración (es decir, el tamaño en bytes de los elementos entrantes antes de su descompresión). |
Conector de OpsMgr\Bytes transmitidos | El valor de este contador indica el número de bytes de red que envía un servidor de administración (es decir, el tamaño en bytes de los elementos salientes tras su compresión). |
Conector de OpsMgr\Bytes de los datos recibidos | Número de bytes de datos recibidos por el servidor de administración, es decir, el tamaño de los datos entrantes después de descomprimir. |
Conector de OpsMgr\Bytes de los datos transmitidos | Número de bytes de datos enviados por el servidor de administración, es decir, el tamaño de los datos salientes antes de la compresión. |
Conector de OpsMgr\Conexiones abiertas | El valor de este contador indica el número de conexiones que están abiertas en un servidor de administración. Este debe equivaler al número de agentes o servidores de administración raíz que están conectados directamente a él. |
Módulos de acciones de escritura de bases de datos de OpsMgr(*)\Tamaño medio de los lotes | El valor de este contador indica el número de elementos de datos o lotes que reciben los módulos de acción de escritura de bases de datos. Si este número es de 5000, significará que está ocurriendo una ráfaga de elementos de datos. |
Módulos de acciones de escritura de bases de datos de OpsMgr(*)\Tiempo medio de procesamiento | El valor de este contador indica el número de segundos que tarda un módulo de acción de escritura de bases de datos en insertar un lote en una base de datos. Si este número suele ser mayor que 60, significará que está ocurriendo un problema de rendimiento en los procesos de inserción de la base de datos. |
Módulo de acciones de escritura de almacenamientos de datos de OpsMgr(*)\Tiempo medio de procesamiento por lotes (ms) | El valor de este contador indica el número de milisegundos que tarda una acción de escritura de almacenamientos de datos en insertar un lote de elementos de datos en un almacenamiento de datos. |
Módulo de acciones de escritura de almacenamientos de datos de OpsMgr(*)\Tamaño medio de los lotes | El valor de este contador indica el número medio de elementos de datos o lotes que reciben los módulos de acciones de escritura de almacenamientos de datos. |
Módulo de escritura de almacenamientos de datos de OpsMgr(*)\Lotes/s | El valor de este contador indica el número de lotes que reciben los módulos de acciones de escritura de almacenamientos de datos por segundo. |
Módulo de escritura de almacenamientos de datos de OpsMgr(*)\Elementos de datos/s | El valor de este contador indica el número de elementos de datos que reciben los módulos de acción de escritura de almacenamientos de datos por segundo. |
Módulo de escritura de almacenamientos de datos de OpsMgr(*)\Recuento de elementos de datos anulados | El valor de este contador indica el número de elementos de datos que anulan los módulos de acción de escritura de almacenamientos de datos. |
Módulo de escritura de almacenamientos de datos de OpsMgr(*)\Recuento total de errores | El valor de este contador indica el número de errores que se produjeron en un módulo de acción de escritura de almacenamientos de datos. |