Поделиться через


Устранение неполадок с оповещениями метрик Azure Monitor

В этой статье обсуждаются распространенные проблемы об оповещениях о метриках Azure Monitor и способы их устранения.

Оповещения Azure Monitor заблаговременно уведомляют вас при обнаружении важных условий в данных мониторинга. Они позволяют выявить и устранить проблемы, прежде чем пользователи системы обнаружат их. Дополнительные сведения об оповещениях см. в статье Обзор оповещений в Microsoft Azure.

Оповещение метрик не срабатывает, когда оно должно быть

Если вы считаете, что оповещение метрик должно быть запущено, но оно не было, и оно не указано в портал Azure, попробуйте выполнить следующие действия:

  1. Просмотрите конфигурацию правила генерации оповещений метрик.

    • Убедитесь, что Тип агрегирования и Степень детализации сбора данных (период) настроены должным образом. Тип агрегирования определяет, как агрегируются значения метрик. Дополнительные сведения см. в статье Описание агрегирования и отображения метрик в Метриках Azure Monitor. Степень детализации сбора данных (период) указывает, за какой период выполняется вычисление значений метрики при каждом запуске правила генерации оповещений.

    • Убедитесь, что параметры Пороговое значение и Чувствительность настроены необходимым образом.

    • Для правила генерации оповещений, использующего динамические пороговые значения, проверьте, настроены ли дополнительные параметры. Параметр Количество нарушений может приводить к фильтрации оповещения, а параметр Игнорировать данные до может влиять на способ вычисления пороговых значений.

      Примечание.

      Для динамических пороговых значений требуется не менее 3 дней и 30 образцов метрики, прежде чем они станут активными.

  2. Проверьте, запущено ли оповещение, но не отправляло уведомление.

    Просмотрите список запущенных оповещений, чтобы узнать, можно ли найти оповещение о срабатывании. Если оповещение есть в списке, но возникли проблемы с некоторыми его действиями или уведомлениями, см. статью Устранение неполадок с оповещениями Azure Monitor.

  3. Проверьте, активен ли оповещение.

    Убедитесь, что в временных рядах метрик уже есть оповещение, для которого вы ожидаете получить оповещение. Оповещения о метриках являются оповещениями с отслеживанием состояния. Это значит, что как только поступает оповещение для определенного временного ряда метрики, дополнительные оповещения для этого временного ряда не будут поступать до тех пор, пока проблема не будет устранена. Этот вариант поведения сокращает уровень шума. Оповещение автоматически разрешается, если его условие не выполняется в трех последовательных оценках.

  4. Проверьте используемые измерения.

    Если вы выбрали некоторые значения измерений для метрики, правило генерации оповещений отслеживает каждую отдельную временные ряды метрик (как определено сочетанием значений измерений) для нарушения порогового значения. Если нужно также отслеживать агрегированные временные ряды метрик (без выбранных измерений), настройте дополнительное правило генерации оповещений для метрики без выбора измерений.

  5. Проверьте агрегирование и степень детализации времени.

    Если вы используете диаграммы метрик, убедитесь, что:

    • значения, заданные для параметров Агрегирование в диаграмме метрик и Тип агрегирования в правиле генерации оповещений, совпадают;
    • значение, заданное для параметра Степень детализации времени, соответствует заданному значению для параметра Степень детализации сбора данных (период) в правиле генерации оповещения и для этого параметра не задано значение Автоматически.
  6. Проверьте, отсутствует ли правило генерации оповещений в первом ознакомительном периоде в временных рядах.

    Вы можете уменьшить вероятность отсутствия первой оценки добавленных временных рядов, убедившись, что выбрана степень детализации агрегирования (период), которая превышает частоту оценки в следующих случаях:

    • При добавлении нового сочетания значений измерения в правило генерации оповещений метрик, которое отслеживает несколько измерений.
    • При добавлении нового ресурса в область в правило генерации оповещений метрик, которое отслеживает несколько ресурсов.
    • Когда метрика создается после периода, превышающего 24 часа, в течение которого она не была представлена для правила генерации оповещений метрик, которое отслеживает метрику, которая не создается непрерывно (разреженная метрика).

Оповещение метрик не активируется при каждом выполнении условия

Оповещения о метриках по умолчанию отслеживают состояние, поэтому, если для определенного временного ряда уже есть появилось оповещение, дополнительные оповещения для этого временного ряда не выдаются. Чтобы сделать определенное правило генерации оповещений метрик без отслеживания состояния и получать оповещения о каждой оценке, в которой выполняется условие генерации оповещений, используйте один из следующих вариантов:

  • Если правило генерации оповещений создается программным способом, например с помощью Azure Resource Manager, PowerShell, REST или Azure CLI, задайте для свойства autoMitigate значение False.

  • При создании правила генерации оповещений в портал Azure снимите флажок "Автоматически разрешать оповещения" в разделе сведений о правиле генерации оповещений. Частота уведомлений для оповещений метрик без отслеживания состояния зависит от настроенной частоты правила генерации оповещений:

  • Частота оповещений менее 5 минут: пока условие продолжает выполняться, уведомление отправляется где-то от одного до шести минут.

  • Частота оповещений более 5 минут: пока условие продолжает выполняться, уведомление отправляется между настроенной частотой и двойной частотой. Например, для правила генерации оповещений с частотой 15 минут уведомление отправляется в диапазоне от 15 до 30 минут.

Примечание.

Отключение отслеживания состояния для правила генерации оповещений метрик мешает решению сработавших оповещений. Поэтому даже если условие больше не выполняется, оповещения остаются в активном состоянии до истечения 30-дневного периода хранения.

Правило генерации оповещений метрик с динамическим пороговым значением недостаточно

Вы можете столкнуться с правилом генерации оповещений, которое использует динамические пороговые значения, не срабатывает или не учитывается достаточно, даже если он настроен с высокой конфиденциальностью. Это может произойти, когда распределение метрик является очень нерегулярным. Рассмотрите одно из следующих решений, чтобы устранить проблему:

  • Перейдите к мониторингу дополнительной метрики, подходящей для вашего сценария (если применимо). Например, проверьте наличие изменений в частоте успешных выполнений, а не частоте сбоев.
  • Попробуйте выбрать другое значение параметра Степень детализации сбора данных (период).
  • Проверьте, произошло ли резкое изменение поведения метрик за последние 10 дней, например сбой. Внезапное изменение может повлиять на верхние и нижние пороговые значения, вычисляемые для метрики, и расширить их. Подождите несколько дней, пока сбой больше не будет приниматься в расчет пороговых значений. Вы также можете изменить правило генерации оповещений, чтобы использовать данные "Игнорировать" перед параметром "Дополнительные параметры".
  • Если данные имеют недельную сезонность, однако накопленных в журнале данных для метрики недостаточно, вычисленные пороговые значения могут иметь расширенные верхние и нижние границы. Например, при вычислении рабочие дни и выходные дни могут обрабатываться одинаково, что приводит к расширению границ, которые не всегда соответствуют данным. Эта проблема должна решиться после того, как будет собран достаточный журнал метрик. Затем обнаруживается правильная сезонность и вычисляемые пороговые значения обновляются соответствующим образом.

Ошибочное срабатывание оповещения метрики

Если вы считаете, что оповещение метрики не должно было сработать, но сработало, следующие действия могут помочь устранить проблему.

  1. Найдите сработавшее оповещение в списке сработавших оповещений. Выберите оповещение, чтобы просмотреть сведения о нем. Просмотрите сведения в разделе Почему сработало это оповещение?, чтобы просмотреть диаграмму метрик, Значение метрики и Пороговое значение на момент срабатывания оповещения.

    Примечание.

    Если вы используете динамические пороговые значения и считаете, что пороговые значения не были правильными, предоставьте отзыв с помощью значка нахмуренного. Мы учтем ваши отзывы при алгоритмических исследованиях в области машинного обучения, что в дальнейшем поможет усовершенствовать механизм обнаружения.

  2. Если для метрики задано несколько значений измерений, оповещение будет активироваться, когда любой из показателей временного ряда (определяемый сочетанием значений измерений) превысит пороговое значение. Дополнительные сведения об использовании измерений в оповещениях метрик см. в разделе "Сузить целевой объект с помощью измерений".

  3. Проверьте конфигурацию правила генерации оповещений, чтобы убедиться, что она настроена правильно.

    • Убедитесь, что параметры Тип агрегирования, Степень детализации сбора данных (период) и Пороговое значение или Чувствительность настроены должным образом.
    • Для оповещений, использующих динамические пороговые значения, проверьте настройку дополнительных параметров, так как параметр Число нарушений может отфильтровывать оповещения, а параметр Игнорировать данные до может влиять на способ расчета пороговых значений.

    Примечание.

    Для динамических пороговых значений требуется не менее 3 дней и 30 образцов метрики, прежде чем они станут активными.

  4. Если вы используете диаграммы метрик, убедитесь, что:

    • значения, заданные для параметров Агрегирование в диаграмме метрик и Тип агрегирования в правиле генерации оповещений, совпадают;
    • значение, заданное для параметра Степень детализации времени, соответствует заданному значению для параметра Степень детализации сбора данных (период) в правиле генерации оповещения и для этого параметра не задано значение Автоматически.
  5. Если оповещение сработало, когда уже сработали оповещения, которые отслеживают те же условия (которые еще не были решены), проверьте, не указано в настройках не выполнять автоматическое разрешение в правиле оповещения. Это означает, что правило генерации оповещений является без отслеживания состояния и не разрешает автоматические оповещения и не требует разрешения предупреждения о срабатывании перед повторной активацией в одном и том же временных рядах. Чтобы проверить, отключено ли автоматическое разрешение для правила генерации оповещений, выполните следующие действия.

    • Измените правило генерации оповещений на портале Azure. Проверьте, снят ли флажок Автоматически разрешать оповещения в разделе Сведения о правиле генерации оповещений.
    • Просмотрите скрипт, используемый для развертывания правила генерации оповещений, или получите определение правила генерации оповещений. Проверьте, задано ли для свойства autoMitigate значение false.

Правило генерации оповещений метрик с динамическими порогами слишком много или слишком шумно

Если правило генерации оповещений, использующее динамические пороговые значения, слишком шумно или слишком много, может потребоваться уменьшить чувствительность правила генерации оповещений динамических пороговых значений. Используйте один из следующих методов.

  • Чувствительность порога: установите для уровня чувствительности значение Низкий, чтобы снизить чувствительность к отклонениям.
  • Число нарушений (в разделе Дополнительные параметры). Настройте правило генерации оповещений, чтобы оно активировалось, только если в течение заданного периода возникает определенное число отклонений. Это сделает правило менее подверженным воздействию временных отклонений.

Правило генерации оповещений метрик с динамическими порогами показывает значения, не находящиеся в диапазоне ожидаемых значений.

Если значение метрики отображает большие колебания, динамические пороговые значения могут создавать широкую модель вокруг значений метрик, что может привести к снижению или более высокой границе, чем ожидалось. Этот сценарий может произойти, когда:

  • установлен низкий уровень чувствительности;

  • метрика демонстрирует неравномерное поведение с высокой дисперсией, то есть в данных есть пики или провалы.

    Попробуйте сделать модель менее чувствительной, выбрав более высокую чувствительность или выбрав более крупный период Lookback. Кроме того, можно использовать данные "Игнорировать", прежде чем исключить последние нарушения из исторических данных, используемых для сборки модели.

Проблемы с настройкой правил генерации оповещений метрик

Не удается найти метрику для оповещения

Если вы хотите оповещать об определенной метрике, но не видите ее при создании правила генерации оповещений, проверьте следующее:

Не удается найти метрику для оповещений — метрики гостевых виртуальных машин

Чтобы оповещать о метриках гостевой операционной системы виртуальных машин (например, о памяти или месте на диске), убедитесь, что вы установили необходимый агент для сбора этих данных в метриках Azure Monitor:

Дополнительные сведения о сборе данных из гостевой операционной системы виртуальной машины см. на этом сайте.

Примечание.

Если вы настроили отправку гостевых метрик в рабочую область Log Analytics, они будут отображаться в ресурсе рабочей области Log Analytics. Данные начнут отображаться только после создания правила создания оповещений, которое отслеживает их. Выполните действия, чтобы настроить оповещение метрики для журналов.

В настоящее время отслеживание гостевых метрик для нескольких виртуальных машин с помощью одного правила генерации оповещений не поддерживается. Однако можно использовать правило генерации оповещений журнала. Для этого убедитесь, что гостевые метрики собираются в рабочей области Log Analytics, и создайте правило генерации оповещений журнала в этой рабочей области.

Не удается найти измерение метрики для оповещения

Если вы хотите оповещать о конкретных значениях измерений метрики, но не можете найти эти значения:

  • Для отображения значений в списке Значения измерения может потребоваться несколько минут.
  • Отображаемые значения измерений основаны на данных метрик, собранных за последний день.
  • Если значение измерения еще не выдается или не отображается, можно использовать параметр Добавить пользовательское значение для добавления пользовательского значения измерения.
  • Если вы хотите оповещать обо всех возможных значениях измерения и даже включать будущие значения, выберите параметр Выбрать все текущие и будущие значения.
  • Измерения пользовательских метрик ресурсов Application Insights по умолчанию отключены. Чтобы включить коллекцию измерений для этих пользовательских метрик, ознакомьтесь с метриками на основе журналов и предварительно подготовленными метриками в Application Insights.

Вы хотите настроить правило генерации оповещений для пользовательской метрики, которая еще не создается

При создании правила генерации оповещений метрики имя метрики проверяется с помощью API определений метрик, чтобы убедиться, что она существует. В некоторых случаях необходимо создать правило генерации оповещений для пользовательской метрики до того, как она будет сформирована. Например, при создании с помощью шаблона Resource Manager ресурса Application Insights, который будет выдавать пользовательскую метрику, а также правило генерации оповещений, отслеживающее эту метрику.

Чтобы избежать сбоя развертывания при попытке проверить определения пользовательской метрики, используйте параметр skipMetricValidation в разделе criteria правила генерации оповещений. Этот параметр приводит к пропуску проверки метрик. Сведения об использовании этого параметра в шаблоне Resource Manager см. в приведенном ниже примере. Дополнительные сведения см. в разделе с примерами шаблонов Resource Manager для создания правил генерации оповещений метрик.

"criteria": {
    "odata.type": "Microsoft.Azure.Monitor.SingleResourceMultipleMetricCriteria",
        "allOf": [
            {
                "name" : "condition1",
                "metricName": "myCustomMetric",
                "metricNamespace": "myCustomMetricNamespace",
                "dimensions":[],
                "operator": "GreaterThan",
                "threshold" : 10,
                "timeAggregation": "Average",
                "skipMetricValidation": true
            }
        ]
    }

Примечание.

Использование параметра skipMetricValidation может также потребоваться при определении правила генерации оповещений для существующей пользовательской метрики, которая не была сформирована в течение нескольких дней.

Предупреждения и ошибки при настройке правил генерации оповещений метрик

Динамические пороговые значения в настоящее время недоступны для этого предупреждения метрик

Динамические пороговые значения поддерживаются для большинства метрик, но не для всех. Обратитесь к метрикам, которые не поддерживаются динамическими порогами для списка метрик.

Метрика недоступна для выбранной области. Это может произойти, если метрика применяется только к определенной версии или ошибке SKU

Просмотрите описание метрик в поддерживаемых метриках с помощью Azure Monitor , чтобы проверить, доступна ли она только в определенных версиях или выпусках ресурса или этого типа.

Например, в ресурсах Базы данных SQL или службах хранилища файлов есть определенные метрики, поддерживаемые только в определенных версиях ресурса.

Нет доступных сигналов для отображения. Попробуйте изменить область этой ошибки правила генерации оповещений

Эта ошибка указывает на проблему с областью правила генерации оповещений. Это может произойти при редактировании правила генерации оповещений, относящегося к типу ресурса, который поддерживает конфигурацию с несколькими ресурсами (например, виртуальная машина или база данных SQL), а также при попытке добавить другой ресурс того же типа, но из другого региона. Оповещения о нескольких ресурсах одного типа из разных регионов не поддерживаются в оповещениях о метриках.

Ограничения службы для правил генерации оповещений метрик слишком малы

Допустимое количество правил генерации оповещений метрик для каждой подписки зависит от ограничений служб.

См . сведения о количестве используемых правил генерации оповещений метрик, чтобы узнать, сколько правил генерации оповещений метрик в настоящее время используется.

Если вы достигли предела службы, следующие шаги могут помочь устранить проблему:

  1. Попробуйте удалить или отключить правила генерации оповещений о метриках, которые больше не используются.
  2. Перейдите на использование правил генерации оповещений метрик, которые отслеживают сразу несколько ресурсов. Благодаря этой возможности одно правило генерации оповещений может отслеживать несколько ресурсов, при этом в квоте будет учитываться только одно правило генерации оповещений. Дополнительные сведения об этой возможности и поддерживаемых типах ресурсов см . в метриках.
  3. Если необходимо увеличить ограничение квоты, откройте запрос на поддержку и укажите следующее:
    • Идентификаторы подписок, для которых нужно увеличить квоту.
    • Тип ресурсов для увеличения квоты. Выберите оповещения метрик.
    • Запрашиваемое увеличение квоты.

Следующие шаги

Общие сведения об устранении неполадок в оповещениях и уведомлениях см. в разделе Устранение неполадок в оповещениях Azure Monitor.