Supervisión de Site Recovery con registros de Azure Monitor

Artículo
05/21/2024

En este artículo se describe cómo supervisar las máquinas replicadas que haya replicado Azure Site Recovery, mediante los registros de Azure Monitor y log Analytics.

Los registros de Azure Monitor proporcionan una plataforma de datos de registro que recopila registros de actividad y de recursos, junto con otros datos de supervisión. En los registros de Azure Monitor, debe usar Log Analytics para escribir y probar consultas de registro y analizar interactivamente esos datos de registro. Puede visualizar y consultar los resultados del registro y configurar alertas para realizar acciones basadas en los datos supervisados.

En el caso de Site Recovery, puede usar los registros de Azure Monitor para hacer lo siguiente:

Supervisar el estado de Site Recovery. Por ejemplo, puede supervisar el estado de la replicación, probar el estado de conmutación por error, los eventos de Site Recovery, los objetivos del punto de recuperación (RPO) para máquinas protegidas y las velocidades de cambio de disco o datos.
Configurar alertas para Site Recovery. Por ejemplo, puede configurar alertas relacionadas con el estado de la máquina, probar el estado de conmutación por error o el estado del trabajo de Site Recovery.

El uso de los registros de Azure Monitor con Site Recovery se admite para la replicación de Azure a Azure y de una máquina virtual de VMware o un servidor físico a Azure.

Nota:

Para obtener los registros de datos de renovación y los registros de frecuencia de carga para VMware y máquinas físicas, debe instalar un agente de supervisión de Microsoft en el servidor de procesos. Este agente envía los registros de las máquinas que se replican al área de trabajo. Esta capacidad solo está disponible para la versión de agente de movilidad 9.30 en adelante.

Requisitos previos

Esto es lo que necesita:

Hay como mínimo una máquina protegida en un almacén de Recovery Services.
Un área de trabajo de Log Analytics para almacenar los registros de Site Recovery. Obtenga información sobre cómo configurar un área de trabajo.
Tener una noción básica de cómo escribir, ejecutar y analizar consultas de registros en Log Analytics. Más información.

Le recomendamos que revise las preguntas de supervisión más comunes antes de comenzar.

Registros de eventos disponibles para Azure Site Recovery

Azure Site Recovery proporciona las siguientes tablas heredadas y específicas del recurso. Cada evento proporciona datos detallados sobre un conjunto específico de artefactos relacionados con la recuperación del sitio:

Tablas específicas de recursos:

Tablas heredadas:

Eventos de Azure Site Recovery
Elementos replicados de Azure Site Recovery
Estadísticas de replicación de Azure Site Recovery
Puntos de Azure Site Recovery
Velocidad de carga de datos de replicación de Azure Site Recovery
Actividad de los datos del disco protegido de Azure Site Recovery
Detalles de elementos replicados de Azure Site Recovery

Configurar Site Recovery para enviar registros

En el almacén, haga clic en Configuración de diagnóstico>Agregar configuración de diagnóstico.
En Configuración de diagnóstico especifique un nombre y marque la casilla Enviar a Log Analytics.
Seleccione la suscripción de los registros de Azure Monitor y el área de trabajo de Log Analytics.
Seleccione Azure Diagnostics en el control de alternancia.
En la lista de registros, seleccione todos los registros con el prefijo AzureSiteRecovery. Después, seleccione Aceptar.

Los registros de Site Recovery comienzan a obtener datos en una tabla (AzureDiagnostics) en el área de trabajo seleccionada.

Configuración del agente de supervisión de Microsoft en el servidor de procesos para enviar registros de tasa de carga y de renovación

Puede capturar la información sobre la tasa de renovación de datos y la información de la tasa de carga de datos de origen para sus máquinas de VMware o físicas en el entorno local. Para habilitarlo, es necesario instalar el agente de supervisión de Microsoft en el servidor de procesos.

Vaya al área de trabajo de Log Analytics y haga clic en Configuración avanzada.
Haga clic en la página Orígenes conectados y seleccione Servidores de Windows.
Descargue el agente de Windows (64 bits) en el servidor de procesos.
Obtención de la clave y el identificador del área de trabajo
Configuración del agente para usar TLS 1.2
Complete la instalación del agente proporcionando la clave y el identificador del área de trabajo obtenidos.
Una vez que se complete la instalación, vaya al área de trabajo de Log Analytics y seleccione Administración de agentes antiguos. Vaya a la página Datos y haga clic en Contadores de rendimiento de Windows.
Haga clic en "+" para agregar los dos contadores siguientes con un intervalo de muestra de 300 segundos:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
Los datos de la tasa de renovación y carga comenzarán a alimentarse en el área de trabajo.
Actualmente no se pueden buscar los siguientes contadores de Site Recovery:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
  Sin embargo, se pueden agregar pegando los nombres en su totalidad.

Nota:

Actualmente, no puede buscar estos contadores. Sin embargo, puede agregarlos copiando y pegando sus nombres completos.

SourceVmThrpRate muestra la red a través de la tasa de colocación en el origen.
SourceVmChurnRate muestra la tasa de cambio de datos en el disco en la máquina virtual de origen.

Captura de pantalla de la pantalla de configuración de contadores.

Consultar los registros: ejemplos

Puede recuperar datos de los registros mediante consultas de registro escritas con el lenguaje de consulta Kusto. En esta sección se proporcionan algunos ejemplos de consultas comunes que puede usar para la supervisión de Site Recovery.

Nota:

Algunos de los ejemplos usan replicationProviderName_s establecido en A2A. Esta opción recupera las máquinas virtuales de Azure que se replican en una región secundaria de Azure mediante Site Recovery. En estos ejemplos, puede reemplazar A2A por InMageRcm, si quiere recuperar las máquinas virtuales de VMware locales o los servidores físicos que se replican en Azure mediante Site Recovery.

Estado de la replicación de consulta

Esta consulta traza un gráfico circular del estado actual de la replicación de todas las máquinas virtuales de Azure protegidas, y está dividido en tres estados: Normal, Advertencia o Crítico.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , replicationHealth_s  
| summarize count() by replicationHealth_s  
| render piechart

Consultar la versión de Mobility Service

Esta consulta traza un gráfico circular de las máquinas virtuales de Azure replicadas con Site Recovery, y lo desglosa en función de la versión del agente de Mobility que estén ejecutando las máquinas.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , agentVersion_s  
| summarize count() by agentVersion_s  
| render piechart

Consultar la hora de RPO

Esta consulta traza un gráfico de barras de máquinas virtuales de Azure replicadas con Site Recovery, y lo desglosa en función del objetivo de punto de recuperación (RPO): Menos de 15 minutos; entre 15 y 30 minutos; más de 30 minutos.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",   
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , RPO  
| summarize Count = count() by RPO  
| render barchart

Captura de pantalla que muestra un gráfico de barras de las máquinas virtuales de Azure replicadas con Site Recovery.

Consultar trabajos de Site Recovery

Esta consulta recupera todos los trabajos de Site Recovery (para todos los escenarios de recuperación ante desastres) activados en las últimas 72 horas y su estado de finalización.

AzureDiagnostics  
| where Category == "AzureSiteRecoveryJobs"  
| where TimeGenerated >= ago(72h)   
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType

Consultar eventos de Site Recovery

Esta consulta recupera todos los eventos de Site Recovery (para todos los escenarios de recuperación ante desastres) generados en las últimas 72 horas, junto con su gravedad.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryEvents"   
| where TimeGenerated >= ago(72h)   
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level

Consultar el estado de conmutación por error de prueba (gráfico circular)

Esta consulta traza un gráfico circular del estado de conmutación por error de prueba de las máquinas virtuales de Azure replicadas con Site Recovery.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , Resource, failoverHealth_s  
| summarize count() by failoverHealth_s  
| render piechart

Consultar el estado de conmutación por error de prueba (tabla)

Esta consulta traza una tabla del estado de conmutación por error de prueba de las máquinas virtuales de Azure replicadas con Site Recovery.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s

Consultar el RPO de la máquina

Esta consulta traza un gráfico de tendencias que realiza un seguimiento del RPO de una máquina virtual de Azure específica (ContosoVM123) durante las últimas 72 horas.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where TimeGenerated > ago(72h)  
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d   
| render timechart

Captura de pantalla de un gráfico de tendencias que realiza un seguimiento del RPO de una máquina virtual de Azure específica.

Consulta de la velocidad de cambio de datos (abandono) y tasa de carga de una máquina virtual de Azure

Esta consulta traza un gráfico de tendencias de una máquina virtual de Azure específica (ContosoVM123), que realiza el seguimiento de la velocidad de cambio de datos (bytes de escritura por segundo) y la velocidad de carga de datos.

AzureDiagnostics   
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")   
| extend CategoryS = case(Category contains "Churn", "DataChurn",   
Category contains "Upload", "UploadRate", "none")  
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)   
| where TimeGenerated > ago(24h)   
| where InstanceName_s startswith "ContosoVM123"   
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576   
| render timechart

Captura de pantalla de un gráfico de tendencias de una máquina virtual de Azure específica

Consultar la velocidad de cambio de datos (renovación) y tasa de carga de una máquina física o VMware

Nota:

Asegúrese de configurar el agente de supervisión en el servidor de procesos para capturar estos registros. Consulte los pasos para configurar el agente de supervisión.

Esta consulta traza un gráfico de tendencias de un disco específico disk0 de un elemento replicado win-9r7sfh9qlru, que realiza el seguimiento de la velocidad de cambio de datos (bytes de escritura por segundo) y la velocidad de carga de datos. Puede encontrar el nombre del disco en el panel Discos del elemento replicado en el almacén de servicios de recuperación. El nombre de instancia que se va a usar en la consulta es el nombre DNS de la máquina seguido de _ y el nombre del disco, como en este ejemplo.

Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h) 
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880 
| render timechart

El servidor de procesos inserta estos datos cada 5 minutos en el área de trabajo de Log Analytics. Estos puntos de datos representan el promedio calculado durante 5 minutos.

Consultar el resumen de recuperación ante desastres (Azure a Azure)

Esta consulta traza una tabla de resumen para una máquina virtual de Azure replicadas en una región secundaria de Azure. Muestra el nombre de máquina virtual, el estado de replicación y protección, el RPO, el estado de conmutación por error de prueba, la versión del agente de Mobility, cualquier error de replicación activa y la ubicación de origen.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s

Consultar el resumen de recuperación ante desastres (VMware / servidores físicos)

Esta consulta traza una tabla de resumen para las máquinas virtuales de VMware y servidores físicos replicados en Azure. Muestra el nombre de la máquina, el estado de replicación y protección, el RPO, el estado de conmutación por error de prueba, la versión del agente de Mobility, cualquier error de replicación activa y el servidor de proceso relevante.

AzureDiagnostics  
| where replicationProviderName_s == "InMageRcm"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g

Configurar alertas: ejemplos

Puede configurar alertas de Site Recovery basadas en datos de Azure Monitor. Obtenga más información sobre cómo configurar alertas de registro.

Nota:

Algunos de los ejemplos usan replicationProviderName_s establecido en A2A. Esto establece alertas en las máquinas virtuales de Azure que se replican en una región secundaria de Azure. En estos ejemplos, puede reemplazar A2A por InMageRcm si quiere establecer alertas para máquinas virtuales de VMware locales o para servidores físicos replicados en Azure.

Varias máquinas en estado crítico

Configure una alerta si más de 20 máquinas virtuales de Azure replicadas entran en estado crítico.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Para la alerta, establezca el valor del umbral en 20.

Máquina individual en estado crítico

Configure una alerta si una máquina virtual de Azure replicada específica entra en un estado crítico.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where name_s == "ContosoVM123"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Para la alerta, establezca el valor del umbral en 1.

Varias máquinas superan el RPO

Configure una alerta si el RPO de más de 20 máquinas virtuales de Azure supera los 30 minutos.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()

Para la alerta, establezca el valor del umbral en 20.

La máquina individual supera el RPO

Configure una alerta si el RPO de una sola máquina virtual de Azure supera los 30 minutos.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()

Para la alerta, establezca el valor del umbral en 1.

La conmutación por error de prueba de varias máquinas supera los 90 días

Configure una alerta si la última conmutación por error de prueba correcta se realizó hace más de 90 días, en más de 20 máquinas virtuales.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Para la alerta, establezca el valor del umbral en 20.

La conmutación por error de prueba de una sola máquina supera los 90 días

Configure una alerta si la última conmutación por error de prueba correcta de una máquina virtual específica se realizó hace más de 90 días.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| where name_s == "ContosoVM123"  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()

Para la alerta, establezca el valor del umbral en 1.

Error en el trabajo de Site Recovery

Configure una alerta si durante el último día se produce un error en un trabajo de Site Recovery (en este caso, el trabajo Reprotect) que se encuentre en cualquier escenario de Site Recovery.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryJobs"   
| where OperationName == "Reprotect"  
| where ResultType == "Failed"  
| summarize count()

Para la alerta, establezca el valor del umbral en 1 y el período en 1440 minutos, para comprobar los errores del último día.

Pasos siguientes

Obtenga más información sobre la supervisión de Site Recovery integrada.

Compartir vía

Supervisión de Site Recovery con registros de Azure Monitor

Requisitos previos

Registros de eventos disponibles para Azure Site Recovery

Configurar Site Recovery para enviar registros

Configuración del agente de supervisión de Microsoft en el servidor de procesos para enviar registros de tasa de carga y de renovación

Consultar los registros: ejemplos

Estado de la replicación de consulta

Consultar la versión de Mobility Service

Consultar la hora de RPO

Consultar trabajos de Site Recovery

Consultar eventos de Site Recovery

Consultar el estado de conmutación por error de prueba (gráfico circular)

Consultar el estado de conmutación por error de prueba (tabla)

Consultar el RPO de la máquina

Consulta de la velocidad de cambio de datos (abandono) y tasa de carga de una máquina virtual de Azure

Consultar la velocidad de cambio de datos (renovación) y tasa de carga de una máquina física o VMware

Consultar el resumen de recuperación ante desastres (Azure a Azure)

Consultar el resumen de recuperación ante desastres (VMware / servidores físicos)

Configurar alertas: ejemplos

Varias máquinas en estado crítico

Máquina individual en estado crítico

Varias máquinas superan el RPO

La máquina individual supera el RPO

La conmutación por error de prueba de varias máquinas supera los 90 días

La conmutación por error de prueba de una sola máquina supera los 90 días

Error en el trabajo de Site Recovery

Pasos siguientes

Comentarios

Recursos adicionales