Как отслеживать доступность кластера с помощью журналов Azure Monitor в HDInsight
Кластеры HDInsight включают в себя возможность интеграции журналов Azure Monitor, что обеспечивает поддержку запросов к метрикам и журналам, а также настраиваемые оповещения. В этой статье показано, как использовать Azure Monitor для мониторинга кластера.
Интеграция журналов Azure Monitor
Журналы Azure Monitor позволяют собирать и объединять данные, созданные несколькими ресурсами, например кластеры HDInsight, в одном месте для обеспечения цельного мониторинга.
В качестве необходимого компонента для хранения собранных данных потребуется рабочая область Log Analytics. Если вы еще не создали ее, выполните следующие инструкции: Создание рабочей области Log Analytics.
Включение интеграции журналов Azure Monitor в HDInsight
На портале, на странице ресурсов кластера HDInsight, выберите Azure Monitor. Затем выберите включить и выберите рабочую область Log Analytics в раскрывающемся списке.
По умолчанию агент OMS устанавливается на всех узлах кластера, кроме граничных узлов. Так как на граничных узлах кластера не установлен агент OMS, в Log Analytics по умолчанию отсутствуют данные телеметрии для граничных узлов.
Метрики запросов и таблицы журналов
После включения интеграции журналов Azure Monitor (это может занять несколько минут) перейдите к ресурсу рабочей области Log Analytics и выберите Журналы.
В журнале перечислены некоторые примеры запросов, например:
Имя запроса | Description |
---|---|
Доступность компьютеров сегодня | Диаграмма числа компьютеров, отправляющих журналы каждый час |
Список пакетов пульса | Список всех пульсов компьютера за последний час |
Последний пульс каждого компьютера | Отображение последнего пакета пульса, отправленного каждым компьютером. |
Недоступные компьютеры | Список всех известных компьютеров, которые не отправляли пакет пульса за последние 5 часов. |
Коэффициент доступности | Вычисление частоты доступности для каждого подключенного компьютера. |
В качестве примера выполните запрос Коэффициент доступности, выбрав Выполнить в этом запросе, как показано на снимке экрана выше. В результате вы увидите коэффициент доступности каждого узла в кластере, в процентах. Если вы включили несколько кластеров HDInsight для отправки метрик в ту же рабочую область Log Analytics, вы увидите коэффициент доступности для всех узлов (за исключением граничных узлов) в отображаемых кластерах.
Примечание.
Коэффициент доступности измеряется за период длительностью 24 часа, поэтому кластер должен работать в течение как минимум 24 часов, прежде чем вы увидите точный коэффициент доступности.
Вы можете закрепить эту таблицу на общей панели мониторинга, щелкнув Закрепить в правом верхнем углу. Если у вас нет доступных для записи общих панелей мониторинга, узнайте, как ее создать: Создание и общий доступ к панелям мониторинга на портале Azure.
Оповещения Azure Monitor
Можно также настроить оповещения Azure Monitor, которые будут срабатывать, когда значение метрики или результаты запроса соответствуют определенным условиям. Например, создадим оповещение для отправки сообщения электронной почты, если один или несколько узлов не отправляли пакет пульса в течение 5 часов (т. е. предполагается, что они недоступны).
В разделе Журналы запустите образец запроса Недоступные компьютеры, нажав Выполнить в этом запросе, как показано ниже.
Если все узлы доступны, этот запрос должен вернуть нулевой результат. Щелкните Новое правило генерации оповещений, чтобы начать настройку оповещения для этого запроса.
Существует три компонента оповещения: ресурс, для которого создается правило (в данном случае это рабочая область Log Analytics), условие для запуска оповещения и группы действий, которые определяют, что произойдет при срабатывании оповещения. Щелкните Название условия, как показано ниже, чтобы завершить настройку логики сигнала.
Откроется окно Настройка логики сигнала.
Настройте раздел Логика оповещения следующим образом.
Основано на: Число результатов; Условие: Больше чем; Пороговое значение: 0.
Поскольку этот запрос возвращает только недоступные узлы в качестве результатов, то, если число результатов больше 0, оповещение должно сработать.
В разделе Оценено на основе задайте период и частоту в зависимости от частоты проверки на наличие недоступных узлов.
Для этого оповещения необходимо проверить, что период = частота. Дополнительные сведения о периоде, частоте и других параметрах оповещений можно найти здесь.
По завершении настройки логики сигнала нажмите кнопку Готово.
Если у вас еще нет группы действий, щелкните Создать в разделе Группы действий.
Откроется окно Добавить группу действий. Выберите Имя группы действий, Краткое имя, Подписку и Группу ресурсов. В разделе Действия выберите Имя действия, затем выберите значение Электронная почта/SMS/Push-уведомления/Голосовая связь для параметра Тип действия.
Примечание.
Существует несколько других действий, которые можно активировать с помощью предупреждения, помимо электронного письма/SMS/Push/звонка, например функция Azure, LogicApp, веб-перехватчик, ITSM и модуля Runbook службы автоматизации. Подробнее здесь.
Откроется окно Электронное письмо/SMS/Push/звонок. Выберите Имя получателя, проверьте поле Адрес электронной почты и введите адрес электронной почты, по которому должно быть отправлено оповещение. Нажмите кнопку OK в окне Электронная почта/SMS/Push-уведомления/Голосовая связь и в окне Добавить группу действий, чтобы завершить настройку группы действий.
После того как эти колонки будут закрыты, вы увидите группу действий в разделе Группы действий. Наконец, заполните раздел Сведения об оповещении, введя Имя и Описание правила генерации оповещений и выбрав Серьезность. В конце щелкните Создать правило генерации оповещений.
Совет
Возможность указать Серьезность — это мощный инструмент, который можно использовать при создании нескольких оповещений. Например, можно создать одно оповещение, чтобы вызвать предупреждение (серьезность 1), если один головной узел выходит из строя, и другое оповещение, которое вызывает критическое (серьезность 1) в маловероятном случае, когда оба головного узла идут вниз.
При выполнении условия для этого оповещения оно сработает и вы получите сообщение электронной почты со следующими сведениями об оповещении:
Вы также можете просмотреть все сработавшие оповещения, сгруппированные по серьезности; для этого перейдите в раздел Оповещения в Рабочей области Log Analytics.
При выборе группы серьезности (т. е. серьезности 1, как показано выше), будут отображаться записи для всех оповещений о серьезности, которые были запущены следующим образом: