Wykrywanie anomalii wielowariancyjnych w usłudze Microsoft Fabric — omówienie
Co to jest wielowariancyjne wykrywanie anomalii dla szeregów czasowych? Univariate anomaly detection, który jest implementowany przez funkcję KQL series_decompose_anomalies(), umożliwia monitorowanie i wykrywanie anomalii w rozkładie pojedynczej zmiennej w czasie. Natomiast wykrywanie anomalii wielowariancyjnych to metoda wykrywania anomalii we wspólnym rozkładzie wielu zmiennych w czasie. Ta metoda jest przydatna, gdy zmienne są skorelowane, dlatego kombinacja ich wartości w określonym czasie może być nietypowa, podczas gdy wartość każdej zmiennej jest normalna. Wykrywanie anomalii wielowariancyjnych może być używane w różnych aplikacjach, takich jak monitorowanie kondycji złożonych systemów IoT, wykrywanie oszustw w transakcjach finansowych i identyfikowanie nietypowych wzorców ruchu sieciowego.
Rozważmy na przykład system, który monitoruje wydajność floty pojazdów. System zbiera dane dotyczące różnych metryk, takich jak prędkość, zużycie paliwa i temperatura silnika. Analizując te metryki razem, system może wykrywać anomalie, które nie byłyby widoczne, analizując poszczególne metryki osobno. Samodzielnie wzrost zużycia paliwa może wynikać z różnych akceptowalnych powodów. Jednak nagły wzrost zużycia paliwa w połączeniu ze spadkiem temperatury silnika może wskazywać na problem z silnikiem, nawet jeśli każda metryka samodzielnie mieści się w normalnym zakresie.
Jak można wykrywać anomalie wielowariancji w usłudze Microsoft Fabric?
Wielowariancyjne wykrywanie anomalii w sieci szkieletowej wykorzystuje zaawansowane aparaty Spark i Eventhouse na podstawie udostępnionej warstwy magazynu trwałego. Początkowe dane można pozyskać do usługi Eventhouse i uwidocznić w usłudze OneLake. Model wykrywania anomalii można następnie wytrenować przy użyciu aparatu Spark, a przewidywania anomalii na nowych danych przesyłanych strumieniowo można wykonać w czasie rzeczywistym przy użyciu aparatu usługi Eventhouse. Połączenia tych aparatów, które mogą przetwarzać te same dane w magazynie udostępnionym, umożliwiają bezproblemowy przepływ danych z pozyskiwania danych za pośrednictwem trenowania modelu do przewidywania anomalii. Ten przepływ pracy jest prosty i zaawansowany w przypadku monitorowania i wykrywania anomalii w złożonych systemach w czasie rzeczywistym.
Składniki rozwiązania
To rozwiązanie opiera się na następujących składnikach:
- Eventhouse: dane są początkowo pozyskiwane do magazynu zdarzeń, który jest aparatem przetwarzania danych w czasie rzeczywistym, który może obsługiwać strumienie danych o wysokiej przepływności.
- OneLake: dane z usługi Eventhouse są widoczne w usłudze OneLake, która jest udostępnioną warstwą magazynu trwałego, która zapewnia ujednolicony widok danych.
- Pakiet wykrywania anomalii wielowariancji: rozwiązanie używa pakietu języka Python wykrywania anomalii szeregów czasowych, implementowania zaawansowanego algorytmu opartego na sieci uwagi grafu (GAT), która przechwytuje korelacje między różnymi szeregami czasowymi i wykrywa anomalie w czasie rzeczywistym. Model GAT jest trenowany na podstawie danych historycznych, aby poznać relacje między różnymi szeregami czasowym. Wytrenowany model można zastosować do przewidywania anomalii w nowych danych przesyłanych strumieniowo. Należy pamiętać, że ten algorytm jest używany w usłudze AI Narzędzie do wykrywania anomalii, która jest wycofywana. Aby uzyskać więcej informacji na temat algorytmu, zobacz blog i dokument.
- Notes platformy Spark: używany do trenowania modelu wykrywania anomalii w trybie offline na danych historycznych i przechowywania wytrenowanego modelu w rejestrze modeli MLflow usługi Fabric
- Zestaw zapytań KQL: używany do przewidywania anomalii w czasie rzeczywistym w danych przychodzących.