Мониторинг Site Recovery с помощью журналов Azure Monitor
В этой статье приводятся сведения о мониторинге компьютеров, реплицируемых Azure Site Recovery, с помощью журналов Azure Monitor и Log Analytics.
Журналы Azure Monitor являются платформой регистрации данных для сбора данных журналов действий и ресурсов, а также других данных мониторинга. В журналах Azure Monitor вы используете Log Analytics для записи и тестирования запросов журналов и интерактивного анализа данных журнала. Вы можете визуализировать и запрашивать результаты журнала запросов и настраивать оповещения для выполнения действий на основе данных мониторинга.
При работе с Site Recovery можно использовать журналы Azure Monitor для выполнения следующих задач.
- Наблюдение за работоспособностью и состоянием Site Recovery. Например, можно отслеживать работоспособность репликации, состояние тестовой отработки отказа, события Site Recovery, целевые точки восстановления (RPO) для защищенных компьютеров и частоту изменения дисков и данных.
- Настройка оповещений для Site Recovery. Например, можно настроить оповещения о работоспособности компьютера, состоянии тестовой отработки отказа или состоянии задания Site Recovery.
Использование журналов Azure Monitor с Site Recovery поддерживается для репликации Azure в Azure и виртуальной машины VMware или физического сервера в репликацию Azure .
Примечание.
Для получения журналов о скорости изменения данных и журналов о скорости отправки данных для VMware и физических компьютеров необходимо установить Microsoft Monitoring Agent на сервере обработки. Этот агент отправляет журналы реплицируемых компьютеров в рабочую область. Эта возможность доступна только для версии агента мобильности 9.30.
Необходимые компоненты
Вам потребуется следующее.
- По крайней мере один компьютер защищен в хранилище служб восстановления.
- Рабочая область Log Analytics для хранения журналов Site Recovery. Узнайте о настройке рабочей области.
- Базовые сведения о том, как писать, выполнять и анализировать запросы журналов в Log Analytics. Подробнее.
Перед началом работы рекомендуется ознакомиться с общими вопросами о мониторинге.
Журналы событий, доступные для Azure Site Recovery
Azure Site Recovery предоставляет следующие таблицы, относящиеся к ресурсам и устаревшие. Каждое событие предоставляет подробные данные по определенному набору связанных артефактов site recovery.
Таблицы, относящиеся к ресурсам:
Устаревшие таблицы:
- События Azure Site Recovery
- Реплицированные элементы Azure Site Recovery
- Статистика репликации Azure Site Recovery
- Точки Azure Site Recovery
- Периодичность отправки данных репликации Azure Site Recovery
- Обновление данных защищенного диска Azure Site Recovery
- Сведения о реплицированном элементе Azure Site Recovery
Настройка Site Recovery для отправки журналов
В хранилище щелкните Параметры диагностики>Добавить параметр диагностики.
В окне Параметры диагностикиукажите имя параметра и установите флажок Отправить в Log Analytics.
Выберите подписку Azure Monitor Logs и рабочую область Log Analytics.
Установите переключатель в положение Диагностика Azure.
В списке журналов выберите все журналы с префиксом AzureSiteRecovery. Затем выберите OK.
Журналы Site Recovery начнут поступать в таблицу (AzureDiagnostics) в выбранной рабочей области.
Настройка Microsoft Monitoring Agent на сервере обработки для отправки журналов о скорости изменения данных и журналов о скорости отправки данных
Вы можете собирать сведения о скорости изменения данных и скорости отправки данных для виртуальных машин VMware или физических компьютеров в локальной среде. Для этого на сервере обработки должен быть установлен Microsoft Monitoring Agent.
Перейдите в рабочую область Log Analytics и выберите Дополнительные параметры.
Выберите страницу Подключенные источники и щелкните Серверы Windows.
Скачайте агент Windows (64-разрядную версию) на сервере обработки.
Завершите установку агента, указав полученный идентификатор и ключ рабочей области.
После завершения установки перейдите в рабочую область Log Analytics и выберите управление устаревшими агентами. Перейдите на страницу Данные и выберите Счетчики производительности Windows.
Выберите "+", чтобы добавить следующие два счетчика с интервалом в 300 секунд:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
В рабочую область начнут поступать сведения о скорости изменения данных и скорости отправки данных.
В настоящее время следующие счетчики Site Recovery недоступны для поиска.
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
Однако их можно добавить, вставив имена в полном объеме.
Примечание.
В настоящее время вы не можете искать эти счетчики. Однако их можно добавить, скопировав и вставив их полные имена.
- SourceVmThrpRate показывает сеть через передачу скорости в источник.
- SourceVmChurnRate показывает частоту изменения данных на диске на исходной виртуальной машине.
Выполнение запросов журналов — примеры
Данные из журналов извлекаются с помощью запросов журналов, написанных на языке запросов Kusto. В этом разделе приводится несколько примеров распространенных запросов, которые можно использовать для мониторинга Site Recovery.
Примечание.
В некоторых примерах используется replicationProviderName_s со значением A2A. Это извлекает виртуальные машины Azure, которые реплицируются в дополнительный регион Azure с помощью Site Recovery. В этих примерах можно заменить A2A на InMageRcm, если вы хотите получить локальные виртуальные машины VMware или физические серверы, которые реплицируются в Azure с помощью Site Recovery.
Выполнение запроса о работоспособности репликации
Этот запрос отображает круговую диаграмму для текущей работоспособности репликации всех защищенных виртуальных машин Azure, разделенных на три состояния: "Обычный", "Предупреждение" или "Критическое".
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , replicationHealth_s
| summarize count() by replicationHealth_s
| render piechart
Выполнение запроса о версии службы "Мобильность"
Этот запрос отображает круговую диаграмму для виртуальных машин Azure, реплицированных с помощью Site Recovery, с разбивкой на версию агента Mobility, которую они выполняют.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , agentVersion_s
| summarize count() by agentVersion_s
| render piechart
Выполнение запроса о времени RPO
Этот запрос отображает линейчатую диаграмму виртуальных машин Azure, реплицируемых с помощью Site Recovery, с разбивкой по целевой точке восстановления (RPO): менее 15 минут в диапазоне от 15 до 30 минут.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , RPO
| summarize Count = count() by RPO
| render barchart
Выполнение запроса заданий Azure Site Recovery
Этот запрос извлекает все задания Site Recovery (для всех сценариев аварийного восстановления), запущенные за последние 72 часа, и их состояние завершения.
AzureDiagnostics
| where Category == "AzureSiteRecoveryJobs"
| where TimeGenerated >= ago(72h)
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType
Выполнение запроса событий Azure Site Recovery
Этот запрос извлекает все события Site Recovery (для всех сценариев аварийного восстановления), возникшие за последние 72 часа, и уровень их серьезности.
AzureDiagnostics
| where Category == "AzureSiteRecoveryEvents"
| where TimeGenerated >= ago(72h)
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level
Выполнение запроса о состояние тестовой отработки отказа (с созданием круговой диаграммы)
Этот запрос отображает круговую диаграмму для тестового состояния отработки отказа виртуальных машин Azure, реплицированных с помощью Site Recovery.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , Resource, failoverHealth_s
| summarize count() by failoverHealth_s
| render piechart
Выполнение запроса о состоянии тестовой отработки отказа (с созданием таблицы)
Этот запрос отображает таблицу для тестового состояния отработки отказа виртуальных машин Azure, реплицированных с помощью Site Recovery.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s
Выполнение запроса целевой точки восстановления (RPO) виртуальной машины
Этот запрос отображает график тренда, отслеживающий RPO конкретной виртуальной машины Azure (ContosoVM123) за последние 72 часа.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where TimeGenerated > ago(72h)
| where isnotempty(name_s) and isnotnull(name_s)
| where name_s == "ContosoVM123"
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d
| render timechart
Скорость изменения данных запросов (отток) и скорость отправки для виртуальной машины Azure
Этот запрос отображает график тренда для определенной виртуальной машины Azure (ContosoVM123), которая представляет частоту изменения данных (запись байтов в секунду) и скорость отправки данных.
AzureDiagnostics
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")
| extend CategoryS = case(Category contains "Churn", "DataChurn",
Category contains "Upload", "UploadRate", "none")
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)
| where TimeGenerated > ago(24h)
| where InstanceName_s startswith "ContosoVM123"
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576
| render timechart
Выполнение запроса скорости изменения данных и скорости отправки данных для конкретной виртуальной машины VMware или физического компьютера
Примечание.
Убедитесь, что на сервере обработки настроен агент мониторинга для извлечения этих журналов. См. описание действий по настройке агента мониторинга.
Этот запрос формирует график тенденций для конкретного диска disk0 реплицированного элемента Win-9r7sfh9qlru, который представляет скорость изменения данных (байт записи в секунду) и скорость отправки данных. Имя диска можно найти в колонке "Диски " реплицированного элемента в хранилище служб восстановления. Имя экземпляра, используемое в запросе, — это DNS-имя компьютера, за которым следует _ и имя диска, как в этом примере.
Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h)
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880
| render timechart
Сервер обработки отправляет эти данные в рабочую область Log Analytics каждые 5 минут. Эти точки данных представляют среднее значение, вычисленное за 5 минут.
Выполнение запроса сводки параметров аварийного восстановления (из Azure в Azure)
Этот запрос содержит сводную таблицу для виртуальных машин Azure, реплицированных в дополнительный регион Azure. В нем показаны имя виртуальной машины, репликация и состояние защиты, RPO, состояние тестовой отработки отказа, версия агента мобильности, все активные ошибки репликации и исходное расположение.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s
Выполнение запроса сводки параметра аварийного восстановления (для виртуальных машин VMware или физических серверов)
Этот запрос отображает сводную таблицу для виртуальных машин VMware и физических серверов, реплицированных в Azure. В нем показаны имя компьютера, состояние репликации и защиты, RPO, состояние тестовой отработки отказа, версия агента мобильности, все активные ошибки репликации и соответствующий сервер обработки.
AzureDiagnostics
| where replicationProviderName_s == "InMageRcm"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g
Настройка оповещений — примеры
Вы можете настроить оповещения Site Recovery на основе данных Azure Monitor данных. Дополнительные сведения о настройке оповещений см. здесь.
Примечание.
В некоторых примерах используется replicationProviderName_s со значением A2A. Это задает оповещения для виртуальных машин Azure, которые реплицируются в дополнительный регион Azure. В этих примерах можно заменить A2A на InMageRcm , если вы хотите настроить оповещения для локальных виртуальных машин VMware или физических серверов, реплицированных в Azure.
Несколько виртуальных машин в критическом состоянии
Настройте оповещение, если более 20 реплицированных виртуальных машин Azure попадают в критическое состояние.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where replicationHealth_s == "Critical"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Для оповещения задайте для параметра "Пороговое значение20
".
Одна виртуальная машина в критическом состоянии
Настройте оповещение, если определенная реплицированная виртуальная машина Azure переходит в критическое состояние.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where replicationHealth_s == "Critical"
| where name_s == "ContosoVM123"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Для оповещения задайте для параметра "Пороговое значение1
".
Превышение RPO для нескольких виртуальных машин
Настройте оповещение, если RPO в течение более чем 20 виртуальных машин Azure превышает 30 минут.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where rpoInSeconds_d > 1800
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , rpoInSeconds_d
| summarize count()
Для оповещения задайте для параметра "Пороговое значение20
".
Превышение RPO для одной виртуальной машины
Настройте оповещение, если RPO для одной виртуальной машины Azure превышает 30 минут.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where name_s == "ContosoVM123"
| where rpoInSeconds_d > 1800
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , rpoInSeconds_d
| summarize count()
Для оповещения задайте для параметра "Пороговое значение1
".
Тестовая отработка отказа для нескольких компьютеров превышает 90 дней
Настройте оповещение, если последняя успешная отработка отказа составила более 90 дней, на более чем 20 виртуальных машинах.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where Category == "AzureSiteRecoveryReplicatedItems"
| where isnotempty(name_s) and isnotnull(name_s)
| where lastSuccessfulTestFailoverTime_t <= ago(90d)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Для оповещения задайте для параметра "Пороговое значение20
".
Тестовая отработка отказа для одного компьютера превышает 90 дней
Настройте оповещение, если последний успешный тест отработки отказа для конкретной виртуальной машины был более 90 дней назад.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where Category == "AzureSiteRecoveryReplicatedItems"
| where isnotempty(name_s) and isnotnull(name_s)
| where lastSuccessfulTestFailoverTime_t <= ago(90d)
| where name_s == "ContosoVM123"
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Для оповещения задайте для параметра "Пороговое значение1
".
Сбой задания восстановления Site Recovery
Настройте оповещение, если задание Site Recovery (в данном случае задание повторной защиты) завершается сбоем для любого сценария Site Recovery в течение последнего дня.
AzureDiagnostics
| where Category == "AzureSiteRecoveryJobs"
| where OperationName == "Reprotect"
| where ResultType == "Failed"
| summarize count()
Задайте параметру Пороговое значение значение "1", параметру Период — "1440 минут", чтобы проверить ошибки за последний день.
Следующие шаги
Дополнительные сведения о мониторинге Site Recovery.