Detekce anomálií s více proměnnými v Microsoft Fabric – přehled
Co je detekce vícevariátových anomálií pro časovou řadu? Jednovariát detekce anomálií implementovaná funkcí KQL series_decompose_anomalies() umožňuje monitorovat a zjišťovat anomálie v rozdělení jedné proměnné v průběhu času. Naproti tomu multivariátní detekce anomálií je metoda detekce anomálií ve společném rozdělení více proměnných v průběhu času. Tato metoda je užitečná, když proměnné korelují, takže kombinace jejich hodnot v konkrétní době může být neobvyklá, zatímco hodnota každé proměnné sama je normální. Detekce multivariátních anomálií se dá použít v různých aplikacích, jako je monitorování stavu složitých systémů IoT, zjišťování podvodů v finančních transakcích a identifikace neobvyklých vzorů v síťovém provozu.
Představte si například systém, který monitoruje výkon vozového parku vozidel. Systém shromažďuje data o různých metrikách, jako je rychlost, spotřeba paliva a teplota motoru. Díky společné analýze těchto metrik dokáže systém detekovat anomálie, které by se nezjevily analýzou každé metriky jednotlivě. Zvýšení spotřeby paliva může být samo o sobě způsobeno různými přijatelnými důvody. Náhlé zvýšení spotřeby paliva v kombinaci se snížením teploty motoru však může znamenat problém s motorem, i když je každá metrika sama o sobě v normálním rozsahu.
Jak můžete detekovat vícevariátní anomálie v Microsoft Fabric?
Detekce vícevariátních anomálií v prostředcích infrastruktury využívá výkonné moduly Spark a Eventhouse nad sdílenou trvalou vrstvou úložiště. Počáteční data je možné ingestovat do eventhouse a vystavit je v Aplikaci OneLake. Model detekce anomálií se pak dá vytrénovat pomocí modulu Spark a předpovědi anomálií na nových streamovaných datech je možné provádět v reálném čase pomocí modulu Eventhouse. Propojení těchto modulů, které mohou zpracovávat stejná data ve sdíleném úložišti, umožňuje bezproblémový tok dat od příjmu dat prostřednictvím trénování modelu až po predikci anomálií. Tento pracovní postup je jednoduchý a výkonný pro monitorování a detekci anomálií v komplexních systémech v reálném čase.
Součásti řešení
Toto řešení spoléhá na následující komponenty:
- Eventhouse: Data se zpočátku ingestují do eventhouse, což je modul pro zpracování dat v reálném čase, který dokáže zpracovávat datové proudy s vysokou propustností.
- OneLake: Data z Eventhouse jsou vystavena ve oneLake, což je sdílená trvalá vrstva úložiště, která poskytuje jednotné zobrazení dat.
- Balíček detekce anomálií s vícevariátmi: Řešení používá balíček Pythonu pro řadu anomálií anomálií, který implementuje pokročilý algoritmus založený na síti pro pozornost grafu (GAT), která zachycuje korelace mezi různými časovými řadami a detekuje anomálie v reálném čase. Model GAT se vytrénuje na historických datech, aby se naučil vztahy mezi různými časovými řadami. Natrénovaný model lze použít k predikci anomálií na nová streamovaná data. Všimněte si, že tento algoritmus je ten, který se používá ve službě Detektor anomálií AI, která se vyřadí z provozu. Další informace o algoritmu najdete v blogu a dokumentu.
- Poznámkový blok Spark: Slouží k offline trénování modelu detekce anomálií na historická data a uložení natrénovaného modelu v registru modelů MLflow v Prostředcích infrastruktury.
- Sada dotazů KQL: používá se k predikci anomálií příchozích dat v reálném čase.