Поделиться через


Многовариантное обнаружение аномалий в Microsoft Fabric — обзор

Что такое многовариантное обнаружение аномалий для временных рядов? Неустранимое обнаружение аномалий, реализуемое функцией KQL series_decompose_anomalies(), позволяет отслеживать и обнаруживать аномалии в распределении одной переменной с течением времени. В отличие от этого, многовариантное обнаружение аномалий — это метод обнаружения аномалий в совместном распределении нескольких переменных с течением времени. Этот метод полезен при сопоставлении переменных, поэтому сочетание их значений в определенное время может быть аномальным, в то время как значение каждой переменной само по себе нормально. Многовариантное обнаружение аномалий можно использовать в различных приложениях, таких как мониторинг работоспособности сложных систем Интернета вещей, обнаружение мошенничества в финансовых транзакциях и определение необычных шаблонов в сетевом трафике.

Например, рассмотрим систему, которая отслеживает производительность парка транспортных средств. Система собирает данные о различных метриках, таких как скорость, потребление топлива и температура двигателя. Анализируя эти метрики вместе, система может обнаруживать аномалии, которые не будут очевидны, анализируя каждую метрику по отдельности. Собственно, увеличение потребления топлива может быть вызвано различными приемлемыми причинами. Однако внезапное увеличение потребления топлива в сочетании с уменьшением температуры двигателя может указать на проблему с двигателем, даже если каждая метрика в собственном диапазоне находится в нормальном диапазоне.

Как обнаружить многовариантные аномалии в Microsoft Fabric?

Многовариантное обнаружение аномалий в Fabric использует мощные подсистемы Spark и Eventhouse на вершине общего постоянного уровня хранения. Исходные данные можно получать в хранилище событий и предоставляться в OneLake. Затем модель обнаружения аномалий может быть обучена с помощью обработчика Spark, а прогнозы аномалий на новых потоковых данных можно выполнять в режиме реального времени с помощью подсистемы Eventhouse. Взаимодействие этих подсистем, которые могут обрабатывать одни и те же данные в общем хранилище, позволяет легко передавать данные из приема данных с помощью обучения модели к прогнозированию аномалий. Этот рабочий процесс является простым и мощным для мониторинга и обнаружения аномалий в сложных системах в режиме реального времени.

Компоненты решения

Это решение зависит от следующих компонентов:

  • Eventhouse: данные изначально обрабатываются в хранилище событий, который является подсистемой обработки данных в режиме реального времени, которая может обрабатывать потоки данных с высокой пропускной способностью.
  • OneLake: данные из eventhouse предоставляются в OneLake, который является общим постоянным уровнем хранения, предоставляющим единое представление данных.
  • Пакет многовариантного обнаружения аномалий: решение использует пакет Python для обнаружения аномалий временных рядов , реализуя расширенный алгоритм на основе сети внимания графа (GAT), которая фиксирует корреляции между различными временными рядами и обнаруживает аномалии в реальном времени. Модель GAT обучается на исторических данных для изучения связей между разными временными рядами. Обученная модель может применяться для прогнозирования аномалий к новым потоковым данным. Обратите внимание, что этот алгоритм используется в службе ИИ Детектор аномалий, которая отменяется. Дополнительные сведения об алгоритме см. в блоге и документе.
  • Записная книжка Spark: используется для автономного обучения модели обнаружения аномалий в исторических данных и хранения обученной модели в реестре моделей MLflow в Структуре MLflow
  • Набор запросов KQL: используется для прогнозирования аномалий в реальном времени для входящих данных.

Следующий шаг