Compartir vía


Detección de anomalías multivariantes en Microsoft Fabric: información general

¿Qué es la detección de anomalías multivariantes para serie temporal? La detección de anomalías univariantes, que implementa la función KQL series_decompose_anomalies() permite supervisar y detectar anomalías en la distribución de una sola variable a lo largo del tiempo. En cambio, la detección de anomalías multivariantes es un método para detectar anomalías en la distribución conjunta de varias variables a lo largo del tiempo. Este método es útil cuando las variables se correlacionan, por lo que la combinación de sus valores en un momento específico podría ser anómala, mientras que el valor de cada variable por sí mismo es normal. La detección de anomalías multivariantes se puede usar en varias aplicaciones, como supervisar el mantenimiento de sistemas IoT complejos, detectar fraudes en transacciones financieras e identificar patrones inusuales en el tráfico de red.

Por ejemplo, considera un sistema que supervisa el rendimiento de una flota de vehículos. El sistema recopila datos sobre varias métricas, como la velocidad, el consumo de combustible y la temperatura del motor. Al analizar estas métricas juntas, el sistema puede detectar anomalías que no serían aparentes mediante el análisis de cada métrica individualmente. Por sí solo, un aumento del consumo de combustible podría deberse a varias razones aceptables. Sin embargo, un aumento repentino del consumo de combustible combinado con una disminución en la temperatura del motor podría indicar un problema con el motor, incluso si cada métrica por sí misma está dentro de un intervalo normal.

¿Cómo puedes detectar anomalías multivariantes en Microsoft Fabric?

La detección de anomalías multivariantes en Fabric aprovecha los potentes motores Spark y Eventhouse sobre una capa de almacenamiento persistente compartida. Los datos iniciales se pueden ingerir en un Eventhouse y exponerlos en OneLake. Después, el modelo de detección de anomalías se puede entrenar mediante el motor de Spark y las predicciones de anomalías en los nuevos datos de streaming se pueden realizar en tiempo real mediante el motor de Eventhouse. La interconexión de estos motores que pueden procesar los mismos datos en el almacenamiento compartido permite un flujo sin problemas de datos de la ingesta, a través del entrenamiento del modelo, a la predicción de anomalías. Este flujo de trabajo es sencillo y eficaz para la supervisión en tiempo real y la detección de anomalías en sistemas complejos.

Componentes de solución

Esta solución usa los siguientes componentes:

  • Eventhouse: los datos se ingieren inicialmente en un Eventhouse, que es un motor de procesamiento de datos en tiempo real que puede controlar flujos de datos de alto rendimiento.
  • OneLake: los datos de Eventhouse se exponen en OneLake, que es una capa de almacenamiento persistente compartida que proporciona una vista unificada de los datos.
  • Paquete de detección de anomalías multivariantes: la solución usa el paquete de Python time-series-anomaly-detector, implementando un algoritmo avanzado basado en una red de atención gráfica (GAT) que captura las correlaciones entre diferentes series temporales y detecta anomalías en tiempo real. El modelo GAT se entrena en datos históricos para aprender las relaciones entre diferentes series temporales. El modelo entrenado se puede aplicar para predecir anomalías en nuevos datos de streaming. Ten en cuenta que este algoritmo es el que se usa en el servicio Anomaly Detector con IA que se va a retirar. Para obtener más información sobre el algoritmo, consulta el blog y el documento.
  • Cuaderno de Spark: se usa para entrenar sin conexión el modelo de detección de anomalías en datos históricos y almacenar el modelo entrenado en el registro de modelos de MLflow de Fabric
  • Conjunto de consultas KQL: se usa para la predicción en tiempo real de anomalías en los datos entrantes.

Paso siguiente