Compartilhar via


Visão geral da Detecção de anomalias multivariadas no Microsoft Fabric

O que é a detecção de anomalias multivariadas para série temporal? A detecção de anomalias univariadas, que é implementada pela função KQL series_decompose_anomalies(), permite monitorar e detectar anomalias na distribuição de uma única variável ao longo do tempo. Por outro lado, a detecção de anomalias multivariadas é um método de detecção de anomalias na distribuição conjunta de múltiplas variáveis ao longo do tempo. Este método é útil quando as variáveis estão correlacionadas. Portanto, a combinação de seus valores em um momento específico pode ser anômala, enquanto o valor de cada variável por si só é normal. A detecção multivariada de anomalias pode ser usada em várias aplicações, como monitorar a integridade de sistemas IoT complexos, detectar fraudes em transações financeiras e identificar padrões incomuns no tráfego de rede.

Por exemplo, considere um sistema que monitora o desempenho de uma frota de veículos. O sistema coleta dados sobre várias métricas, como velocidade, consumo de combustível e temperatura do motor. Ao analisar essas métricas juntas, o sistema pode detectar anomalias que não seriam aparentes analisando cada métrica individualmente. Por conta própria, um aumento no consumo de combustível pode ser devido a vários motivos aceitáveis. No entanto, um aumento repentino no consumo de combustível combinado com uma diminuição na temperatura do motor pode indicar um problema com o motor, mesmo que cada métrica esteja dentro da faixa normal.

Como detectar anomalias multivariadas no Microsoft Fabric?

A detecção de anomalias multivariadas no Fabric aproveita os poderosos mecanismos Spark e Eventhouse sobre uma camada de armazenamento persistente compartilhada. Os dados iniciais podem ser ingeridos em um Eventhouse e expostos no OneLake. O modelo de detecção de anomalias pode ser treinado usando o mecanismo Spark, e as previsões de anomalias em novos dados de streaming podem ser feitas em tempo real usando o mecanismo Eventhouse. A interconexão desses mecanismos que podem processar os mesmos dados no armazenamento compartilhado possibilita um fluxo contínuo de dados desde a ingestão, por meio do treinamento do modelo, até a previsão de anomalias. Esse fluxo de trabalho é simples e avançado para monitoramento e detecção de anomalias em tempo real em sistemas complexos.

Componentes da solução

A solução usa os seguintes componentes:

  • Eventhouse: os dados são inicialmente ingeridos em um Eventhouse, que é um mecanismo de processamento de dados em tempo real que pode lidar com fluxos de dados de alta taxa de transferência.
  • OneLake: os dados do Eventhouse são expostos no OneLake, que é uma camada de armazenamento persistente compartilhada que fornece uma exibição unificada dos dados.
  • Pacote de detecção de anomalias multivariadas: a solução usa o pacote python time-series-anomaly-detector, implementando um algoritmo avançado baseado em uma GAT (rede de atenção gráfica) que captura as correlações entre diferentes séries temporais e detecta anomalias em tempo real. O modelo GAT é treinado em dados históricos para aprender as relações entre diferentes séries temporais. O modelo treinado pode ser aplicado para prever anomalias em novos dados de streaming. Observe que esse algoritmo é o usado no serviço Detector de Anomalias de IA que está sendo desabilitado. Para obter mais informações sobre o algoritmo, confira oblog e o artigo.
  • Notebook do Spark: usado para treinar offline o modelo de detecção de anomalias em dados históricos e armazenar o modelo treinado no registro de modelos MLflow do Fabric
  • Conjunto de consultas KQL: usado para previsão em tempo real de anomalias nos dados recebidos.

Próxima etapa