Jaa


Monivariaatiopoikkeamien tunnistaminen Microsoft Fabricissa – yleiskatsaus

Mikä on aikasarjan monivariaatiopoikkeamien tunnistus? Univarioi poikkeamien tunnistaminen, jonka KQL-funktio on ottanut käyttöön series_decompose_anomalies(), mahdollistaa yhden muuttujan poikkeamien seurannan ja tunnistamisen yksittäisen muuttujan jakaumassa ajan kuluessa. Sen sijaan monivariaatioiden poikkeamien tunnistaminen on menetelmä poikkeamien havaitsemiseen useiden muuttujien yhteisjakaumassa ajan kuluessa. Tästä menetelmästä on hyötyä, kun muuttujia korreloidaan, joten niiden arvojen yhdistäminen tiettynä ajankohtana voi olla epänormaalia, kun taas jokaisen muuttujan arvo yksinään on normaali. Monivariaatioiden poikkeamien tunnistamista voidaan käyttää eri sovelluksissa, kuten monimutkaisten IoT-järjestelmien kunnon seurannassa, taloustapahtumien petosten havaitsemisessa ja verkkoliikenteen epätavallisten mallien tunnistamisessa.

Harkitse esimerkiksi järjestelmää, joka valvoo ajoneuvokannan suorituskykyä. Järjestelmä kerää tietoja erilaisista mittareista, kuten nopeudesta, polttoaineen kulutuksesta ja moottorin lämpötilasta. Analysoimalla nämä mittarit yhdessä järjestelmä voi havaita poikkeavuuksia, joita ei ilmene analysoimalla kutakin mittausarvoa erikseen. Polttoaineen kulutuksen lisääntyminen voi yksinään johtua useista hyväksyttävistä syistä. Polttoaineen kulutuksen äkillinen lisääntyminen ja moottorin lämpötilan lasku voivat kuitenkin viitata moottorin ongelmaan, vaikka kukin mittausarvo olisikin normaalialueella.

Miten voit tunnistaa monivariaattisia poikkeamia Microsoft Fabricissa?

Fabricin monivariaatiopoikkeamien tunnistaminen hyödyntää tehokkaita Spark- ja Eventhouse-modernia sekä jaettua pysyvää tallennustilaa. Alkuperäiset tiedot voidaan käsitellä Eventhousessa ja paljastaa OneLakessa. Poikkeamien tunnistamisen malli voidaan sitten kouluttaa Spark-moduulilla, ja poikkeavuudet uusissa virtautetuissa tiedoissa voidaan tehdä reaaliaikaisesti Eventhouse-moduulin avulla. Näiden moottoreiden yhteenliittäminen, joka voi käsitellä samoja tietoja jaetussa tallennustilassa, mahdollistaa saumattoman tiedonkulun tietojen käsittelystä mallin harjoittamisen kautta poikkeamien ennustamiseksi. Tämä työnkulku on yksinkertainen ja tehokas reaaliaikaiseen valvontaan ja poikkeamien tunnistamiseen monimutkaisissa järjestelmissä.

Ratkaisun osat

Tämä ratkaisu käyttää seuraavia osia:

  • Eventhouse: Tiedot käsitellään aluksi Eventhousessa, joka on reaaliaikainen tietojenkäsittelymoduuli, joka pystyy käsittelemään suuren siirtomäärän tietovirtoja.
  • OneLake: Eventhousen tiedot näytetään OneLakessa, joka on jaettu pysyvä tallennustilakerros, joka tarjoaa yhtenäisen näkymän tietoihin.
  • Multivariate anomaly detection package: ratkaisu käyttää time-series-anomaly-detector python -pakettia ja toteuttaa kaavion huomioverkkoon (GAT) perustuvan kehittyneen algoritmin, joka tallentaa eri aikasarjojen väliset korrelaatiot ja havaitsee poikkeamat reaaliaikaisesti. GAT-mallia on harjoitettu historiallisten tietojen perusteella, jotta voidaan oppia eri aikasarjojen väliset suhteet. Harjoitetun mallin avulla voidaan ennustaa poikkeamia uusista suoratoistotiedoista. Huomaa, että tätä algoritmia käytetään tekoälyn poikkeamien tunnistaminen -palvelussa, joka on poistettu käytöstä. Lisätietoja algoritmista on blogissa ja raportissa.
  • Spark Notebook: Käytetään offline-tilassa poikkeamien tunnistusmallin harjoittamiseen historiallisista tiedoista ja harjoitetun mallin tallentamiseen Fabricin MLflow-mallien rekisteriin
  • KQL-kyselyjoukko: käytetään reaaliaikaisiin ennusteisiin poikkeamista saapuvissa tiedoissa.

Seuraava vaihe