Dela via


Multivariatavvikelseidentifiering i Microsoft Fabric – översikt

Vad är multivariatavvikelseidentifiering för tidsserier? Med Univariate-avvikelseidentifiering, som implementeras av KQL-funktionen series_decompose_anomalies(), kan du övervaka och identifiera avvikelser i fördelningen av en enskild variabel över tid. Däremot är multivariatavvikelseidentifiering en metod för att identifiera avvikelser i den gemensamma fördelningen av flera variabler över tid. Den här metoden är användbar när variablerna korreleras, vilket innebär att kombinationen av deras värden vid en viss tidpunkt kan vara avvikande, medan värdet för varje variabel i sig är normalt. Multivariatavvikelseidentifiering kan användas i olika program, till exempel övervakning av hälsotillståndet för komplexa IoT-system, identifiering av bedrägerier i finansiella transaktioner och identifiering av ovanliga mönster i nätverkstrafiken.

Tänk dig till exempel ett system som övervakar prestanda för en fordonsflotta. Systemet samlar in data om olika mått, till exempel hastighet, bränsleförbrukning och motortemperatur. Genom att analysera dessa mått tillsammans kan systemet identifiera avvikelser som inte skulle vara uppenbara genom att analysera varje mått individuellt. På egen hand kan en ökning av bränsleförbrukningen bero på olika godtagbara skäl. En plötslig ökning av bränsleförbrukningen i kombination med en minskning av motortemperaturen kan dock tyda på ett problem med motorn, även om varje mått på egen hand ligger inom det normala intervallet.

Hur kan du identifiera multivarierade avvikelser i Microsoft Fabric?

Multivariatavvikelseidentifiering i Fabric drar nytta av de kraftfulla Spark- och Eventhouse-motorerna ovanpå ett delat beständigt lagringslager. De första data kan matas in i ett Eventhouse och exponeras i OneLake. Modellen för avvikelseidentifiering kan sedan tränas med Spark-motorn, och förutsägelserna om avvikelser för nya strömmande data kan göras i realtid med hjälp av Eventhouse-motorn. Sammankopplingen av dessa motorer som kan bearbeta samma data i den delade lagringen möjliggör ett sömlöst flöde av data från inmatning, via modellträning, till förutsägelse av avvikelser. Det här arbetsflödet är enkelt och kraftfullt för realtidsövervakning och identifiering av avvikelser i komplexa system.

Lösningskomponenter

Den här lösningen förlitar sig på följande komponenter:

  • Eventhouse: Data matas ursprungligen in i en Eventhouse, som är en databearbetningsmotor i realtid som kan hantera dataströmmar med högt dataflöde.
  • OneLake: Data från Eventhouse exponeras i OneLake, som är ett delat beständigt lagringslager som ger en enhetlig vy över data.
  • Paket för multivariatavvikelseidentifiering: lösningen använder python-paketet time-series-anomaly-detector och implementerar en avancerad algoritm baserad på ett diagramuppmärksamhetsnätverk (GAT) som fångar korrelationerna mellan olika tidsserier och identifierar avvikelser i realtid. GAT-modellen tränas på historiska data för att lära sig relationerna mellan olika tidsserier. Den tränade modellen kan användas för att förutsäga avvikelser för nya strömmande data. Observera att den här algoritmen är den som används i TJÄNSTEN AI-avvikelseidentifiering som dras tillbaka. Mer information om algoritmen finns i bloggen och tidningen.
  • Spark Notebook: används för offlineträning av modellen för avvikelseidentifiering på historiska data och lagrar den tränade modellen i Fabrics MLflow-modellregister
  • KQL-frågeuppsättning: används för realtidsförutsägelse av avvikelser på inkommande data.

Gå vidare