Supervisión de varios clústeres de Azure Stack HCI con Insights

Artículo
11/23/2024

Se aplica a: Azure Stack HCI, versión 22H2

Importante

Azure Stack HCI ahora forma parte de Azure Local. El cambio de nombre de la documentación del producto está en curso. Sin embargo, las versiones anteriores de Azure Stack HCI, por ejemplo, 22H2 seguirán haciendo referencia a Azure Stack HCI y no reflejarán el cambio de nombre. Más información.

En este artículo se explica cómo usar Insights para supervisar varios clústeres de Azure Stack HCI. Para ver un único clúster de Azure Stack HCI, consulte Supervisión de Azure Stack HCI con Insights.

Importante

Si registró el clúster de Azure Stack HCI y configuró Insights antes de noviembre de 2023, es posible que algunas características que usen el Agente de Azure Monitor (AMA), como Arc for Servers, VM Insights, Defender for Cloud o Sentinel no recopilen registros y datos de eventos correctamente. Para obtener instrucciones de solución de problemas, consulte la sección Solución de problemas de clústeres registrados antes de noviembre de 2023 .

Para obtener información sobre las ventajas, los requisitos previos y cómo habilitar Insights en cada clúster, consulte Ventajas, Requisitos previos y Habilitación de Insights.

Consulte el vídeo para ver una introducción breve:

Visualización de la información de estado, rendimiento y uso

Insights almacena sus datos en un área de trabajo de Log Analytics, lo que le permite ofrecer potentes agregaciones y filtrados y análisis de tendencias de datos a lo largo del tiempo. No hay ningún costo directo para Insights. Se factura a los usuarios según la cantidad de datos ingeridos y la configuración de retención de datos de su área de trabajo de Log Analytics.

Puede acceder a Insights desde el centro > de Azure Monitor > Insights Azure Stack HCI. Verá las pestañas siguientes para alternar entre las vistas: Add to monitoring (Agregar a la supervisión), Estado del clúster, Servidores, Máquinas virtuales, Almacenamiento.

Filtrado de los resultados

La visualización se puede filtrar entre las suscripciones. Puede filtrar los resultados en función de los menús desplegables siguientes:

Intervalo de tiempo: Este filtro le permite seleccionar un intervalo para la vista de tendencias. El valor predeterminado es Últimas 24 horas.
Suscripciones: muestra las suscripciones que tienen registrados clústeres de Azure Stack HCI. Puede seleccionar varias suscripciones en este filtro.
HCI clusters (Clústeres de HCI): Enumera los clústeres de Azure Stack HCI registrados que tienen habilitadas las funcionalidades Registros y Supervisión en el intervalo de tiempo seleccionado. Puede seleccionar varios clústeres en este filtro.
Grupos de recursos: este filtro permite seleccionar todos los clústeres de un grupo de recursos.

Incorporación a la supervisión

Esta característica proporciona detalles de los clústeres que el usuario no supervisa. Para iniciar la supervisión de un clúster, selecciónelo para abrirlo y, después, seleccione Capacidades > Información. Si no ve el clúster, asegúrese de que se ha conectado recientemente a Azure.

Columna	Descripción	Ejemplo
Clúster	Nombre del clúster.	27cls1
Estado de la conexión de Azure	Estado del recurso de HCI.	Conectado
Versión del SO	El sistema operativo construido en el servidor.	10.0.20348.10131

De manera predeterminada, la vista de cuadrícula muestra las primeras 250 filas. Puede establecer el valor editando las filas de cuadrícula tal como se muestra en la imagen siguiente:

Para exportar los detalles de Excel, seleccione Exportar a Excel tal como se muestra en la imagen siguiente:

Excel proporcionará el estado de conexión de Azure de la siguiente manera:

0: No registrado
1: Desconectado
2: No recientemente
3: Conectado

Estado de clústeres

Esta vista proporciona información general acerca del estado de los clústeres.

Columna	Descripción	Ejemplo
Clúster	Nombre del clúster.	27cls1
Última actualización	Marca de tiempo de cuándo se actualizó por última vez el servidor.	9/4/2022, 12:15:42 PM
Estado	Proporciona el estado de los recursos del servidor en el clúster. Puede ser Correcto, Advertencia, Crítico u otro estado.	Healthy
Recurso con errores	Descripción del recurso que provocó el error.	Server, StoragePool, Subsystem
Total de servidores	Número de servidores de un clúster.	4

Si falta el clúster o muestra el estado Otros, vaya al Área de trabajo de Log Analytics usada para el clúster y asegúrese de que Configuración del agente captura datos del registro microsoft-windows-health/operational. Asegúrese también de que los clústeres se han conectado recientemente a Azure y compruebe que no están filtrados en este libro.

Server

En esta vista encontrará información general sobre el estado y el rendimiento del servidor, y sobre el uso de los clústeres seleccionados. Esta vista se ha creado con el identificador de evento de servidor 3000 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Cada fila se puede expandir aún más para ver el estado de mantenimiento del nodo. Puede interactuar con el clúster y el recurso de servidor para ir a la página de recursos correspondiente.

Máquinas virtuales

En esta vista encontrará el estado de todas las VM del clúster seleccionado. La vista se ha creado con el id. de evento de máquina virtual 3003 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Cada fila se puede expandir aún más para ver la distribución de VM entre los servidores del clúster. Puede interactuar con el clúster y el recurso de nodo para ir a la página de recursos correspondiente.

Métrica	Descripción	Ejemplo
Cluster > Servidor	Nombre del clúster. En la expansión, muestra los servidores del clúster.	Sample-VM-1
Última actualización	El valor datetimestamp de la última actualización del servidor.	9/4/2022, 12:24:02 PM
TOTAL DE VM	Número de máquinas virtuales de un nodo de servidor dentro de un clúster.	1 de 2 en ejecución
Ejecución	Número de máquinas virtuales que se ejecutan en un nodo de servidor dentro de un clúster.	2
Detenido	Número de máquinas virtuales detenidas en un nodo de servidor dentro de un clúster.	3
Con error	Número de máquinas virtuales que han producido un error en un nodo de servidor dentro de un clúster.	2
Otros	Si la máquina virtual tiene uno de los estados siguientes (Desconocido, Inicio, Instantáneas, Guardar, Detener, Pausar, Reanudar, En pausa, En suspensión), se considera "Otro".	2

Storage

Esta vista muestra el estado de los volúmenes, el uso y el rendimiento en clústeres supervisados. Expanda un clúster para ver el estado de los volúmenes individuales. Esta vista se ha creado con el identificador de evento de volumen 3002 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Los iconos de la parte superior proporcionan información general sobre el estado del almacenamiento.

Métrica	Descripción	Ejemplo
Clúster > Volumen	Nombre del clúster. En la expansión, muestra los volúmenes de un clúster.	AltaylCluster1 > ClusterPerformanceHistory
Última actualización	El valor datetimestamp de la última actualización del almacenamiento.	14/4/2022, 2:58:55 PM
Estado del volumen	El estado del volumen. Puede ser Correcto, Advertencia, Crítico u otro estado.	Healthy
Size	La capacidad total del dispositivo en bytes durante el período de informes.	25 B
Uso	El porcentaje de capacidad disponible durante el periodo de informe.	23,54 %
Iops	Operaciones de entrada/salida por segundo.	45/s
Tendencia	La tendencia de IOPS.
Capacidad de proceso	Número de bytes por segundo que ha ofrecido Application Gateway.	5B/s
Tendencia (B/s)	La tendencia del rendimiento.
Latencia media	La latencia es el tiempo medio que tarda la solicitud de E/S en completarse.	334 μs

Personalización de insights

Dado que la experiencia del usuario se basa en plantillas de libros de Azure Monitor, los usuarios pueden editar las visualizaciones y las consultas y guardarlas como libros personalizados.

Si usa la visualización de Azure Monitor > Centro de Insights > Azure Stack HCI, seleccione Personalizar > Editar > Guardar como para guardar una copia de la versión modificada en un libro personalizado.

Los libros se guardan dentro de un grupo de recursos. Todos los usuarios con acceso al grupo de recursos podrán acceder al libro personalizado.

La mayoría de las consultas se escriben con el lenguaje de consulta Kusto (KQL). Algunas consultas se escriben con Consulta de Resource Graph. Vea los siguientes artículos para más información:

Soporte técnico

Para abrir una incidencia de soporte técnico para Insights, use el tipo de servicio Insights para Azure Stack HCI en Supervisión y administración.

Canal del registro de eventos

Las vistas de información y supervisión se basan en microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Cuando la supervisión está habilitada, los datos de este canal se guardan en un área de trabajo de Log Analytics.

Visualización y cambio del intervalo de caché de volcado

El intervalo predeterminado para volcar la memoria caché está establecido en 3600 segundos (1 hora).

Use los cmdlets siguientes de PowerShell para ver el valor del intervalo de volcado de caché:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Use los cmdlets siguientes para cambiar la frecuencia del volcado de caché. Si se establece en 0, se dejarán de publicar eventos:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Eventos de Windows en el canal de registro

Este canal incluye cinco eventos. Cada evento tiene EventData como nombre de clúster e identificador de Azure Resource Manager.

Id. del evento	Tipo de evento
3000	Server
3001	Unidad
3002	Volumen
3003	Máquina virtual
3004	Clúster

Valor de la columna RenderedDescription del evento de servidor 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

La mayoría de las variables se explican por sí solas a partir de esta información JSON. Sin embargo, en la tabla siguiente se enumeran algunas variables que son un poco más difíciles de entender.

Variable	Descripción
m_servers	Matriz de nodos de servidor.
m_statusCategory	Estado de mantenimiento del servidor.
m_status	Estado del servidor. Es una matriz que puede contener uno o dos valores. El primer valor es obligatorio (0-4). El segundo valor es opcional (5-9).

Los valores de la variable m_statusCategory son los siguientes:

Valor	Significado
0	Healthy
1	Advertencia
2	Incorrecto
255	Otros

Los valores de la variable m_status son los siguientes:

Valor	Significado
0	Up (Arriba)
1	Bajar
2	En mantenimiento
3	Unir
4	Normal
5	Aislado
6	En cuarentena
7	Purgando
8	Purga completada
9	Error de purga
0xffff	Unknown

Valor de la columna RenderedDescription del evento de unidad 3001

Evento de unidad 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Valor de la columna RenderedDescription del evento de volumen 3002

Evento de volumen 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

La mayoría de las variables se explican por sí solas a partir de la información JSON anterior. Sin embargo, en la tabla siguiente se enumeran algunas variables que son un poco más difíciles de entender.

Variable	Descripción
VolumeList	Matriz de volúmenes.
m_StatusCategory	Estado de mantenimiento del volumen.
m_Status	Estado del volumen. Es una matriz que puede contener uno o dos valores. El primer valor es obligatorio (0-4). El segundo valor es opcional (5-9).

Los valores de la variable m_statusCategory son los siguientes:

Valor	Significado
0	Healthy
1	Advertencia
2	Incorrecto
255	Otros

Los valores de la variable m_status son los siguientes:

Valor	Significado
0	Unknown
1	Otros
2	Aceptar
3	Necesita reparación
4	Con estrés
5	Error predictivo
6	Error
7	Error no recuperable
8	Starting (iniciándose)
9	Deteniéndose
10	Detenido
11	En servicio
12	Sin contacto
13	Comunicación perdida
14	Anulado
15	Inactivo
16	Error en la entidad de soporte
17	Completado
18	Modo de energía
19	Reubicando
0xD002	Bajar
0xD003	Necesita resincronización

Valor de la columna RenderedDescription del evento de máquina virtual 3003

Evento de máquina virtual 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Valor de la columna RenderedDescription del evento de clúster 3004

Evento de clúster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Para obtener más información sobre los datos recopilados, vea Errores del servicio de mantenimiento.

Pasos siguientes

Para obtener información relacionada, consulte:

Compartir a través de