Multivariat avvikelseidentifiering

Artikel
02/04/2025

Allmän information om multivariatavvikelseidentifiering i realtidsinformation finns i Multivariate anomaly detection in Microsoft Fabric – overview (Multivariate anomaly detection in Microsoft Fabric – overview). I den här handledningen använder du exempeldata för att träna en multivariat avvikelseidentifieringsmodell med hjälp av Spark-motorn i en Python-anteckningsbok. Sedan förutsäger du avvikelser genom att tillämpa den tränade modellen på nya data med hjälp av Eventhouse-motorn. De första stegen konfigurerar dina miljöer och följande steg tränar modellen och förutsäger avvikelser.

Förutsättningar

En arbetsyta med en Microsoft Fabric-aktiverad kapacitet
Rollen administratör, deltagare eller medlemi arbetsytan. Den här behörighetsnivån krävs för att skapa objekt som en miljö.
Ett eventhouse på din arbetsyta med en databas.
Ladda ned exempeldata från GitHub-lagringsplatsen
Ladda ned anteckningsboken från GitHub-lagringsplatsen

Del 1 – Aktivera OneLake-tillgänglighet

OneLake-tillgänglighet måste vara aktiverat innan du hämtar data i Eventhouse. Det här steget är viktigt eftersom det gör att de data du matar in blir tillgängliga i OneLake. I ett senare steg får du åtkomst till samma data från din Spark Notebook för att träna modellen.

Från arbetsytan väljer du det Eventhouse som du skapade i förutsättningarna. Välj den databas där du vill lagra dina data.
I fönstret Databasinformation växlar du knappen för OneLake-tillgänglighet till På.

Del 2 – Aktivera KQL Python-plugin-program

I det här steget aktiverar du python-plugin-programmet i Eventhouse. Det här steget krävs för att köra Python-koden predict anomalies i KQL-frågeuppsättningen. Det är viktigt att välja rätt bild som innehåller tidsserie-anomali-detektor paket.

På skärmen Eventhouse väljer du Eventhouse>Plugins i menyfliksområdet.
I fönstret Plugin-program växlar du Python-språktillägget tillPå.
Välj Python 3.11.7 DL (förhandsversion).
Välj Klar.

Del 3 – Skapa en Spark-miljö

I det här steget skapar du en Spark-miljö för att köra Python-notebook-filen som tränar modellen för multivariatavvikelseidentifiering med Spark-motorn. Mer information om hur du skapar miljöer finns i Skapa och hantera miljöer.

På arbetsytan väljer du + Nytt objekt och sedan Miljö.
Ange namnet MVAD_ENV för miljön och välj sedan Skapa.
I miljöfliken Start väljer du Runtime>1.2 (Spark 3.4, Delta 2.4).
Under Bibliotek väljer du Offentliga bibliotek.
Välj Lägg till från PyPI.
I sökrutan anger du time-series-anomaly-detector. Versionen fylls automatiskt i med den senaste versionen. Den här handledningen skapades med version 0.3.2.
Välj Spara.
Välj fliken Start i miljön.
Välj ikonen Publicera i menyfliksområdet.
Markera Publicera alla. Det här steget kan ta flera minuter att slutföra.

Del 4 – Hämta data till Eventhouse

Hovra över den KQL-databas där du vill lagra dina data. Välj menyn Mer [...]>Hämta data>Lokal fil.
Välj + Ny tabell och ange demo_stocks_change som tabellnamn.
I dialogrutan ladda upp data väljer du Bläddra efter filer och laddar upp exempeldatafilen som laddades ned i förutsättningar
Välj Nästa.
I avsnittet Inspektera data växlar du Första raden är kolumnrubrik till På.
Välj Slutför.
När data laddas upp väljer du Stäng.

Del 5 – Kopiera OneLake-sökväg till tabellen

Kontrollera att du väljer tabellen demo_stocks_change . I fönstret Tabellinformation väljer du OneLake-mapp för att kopiera OneLake-sökvägen till Urklipp. Spara den kopierade texten i en textredigerare någonstans som ska användas i ett senare steg.

Skärmbild av kopiering av OneLake-sökvägen.

Del 6 – Förbereda anteckningsboken

Välj din arbetsyta.
Välj Importera, Notebook och sedan Från den här datorn.
Välj Ladda upp och välj den notebook-fil som du laddade ned i förutsättningarna.
När anteckningsboken har laddats upp kan du hitta och öppna anteckningsboken från arbetsytan.
I det övre menyfliksområdet väljer du listrutan Arbetsyta som standard och väljer den miljö som du skapade i föregående steg.

Del 7 – Kör notebook-filen

Importera standardpaket.
```
import numpy as np
import pandas as pd
```

Spark behöver en ABFSS-URI för att ansluta säkert till OneLake-lagring, så nästa steg definierar den här funktionen för att konvertera OneLake-URI:n till ABFSS-URI:n.

def convert_onelake_to_abfss(onelake_uri):
    if not onelake_uri.startswith('https://'):
        raise ValueError("Invalid OneLake URI. It should start with 'https://'.")
    uri_without_scheme = onelake_uri[8:]
    parts = uri_without_scheme.split('/')
    if len(parts) < 3:
        raise ValueError("Invalid OneLake URI format.")
    account_name = parts[0].split('.')[0]
    container_name = parts[1]
    path = '/'.join(parts[2:])
    abfss_uri = f"abfss://{container_name}@{parts[0]}/{path}"
    return abfss_uri

Ersätt platshållaren OneLakeTableURI med din OneLake-URI kopierad från del 5 – Kopiera OneLake-sökvägen till tabellen för att läsa in demo_stocks_change tabell i en Pandas-dataram.

onelake_uri = "OneLakeTableURI" # Replace with your OneLake table URI
abfss_uri = convert_onelake_to_abfss(onelake_uri)
print(abfss_uri)

df = spark.read.format('delta').load(abfss_uri)
df = df.toPandas().set_index('Date')
print(df.shape)
df[:3]

Kör följande celler för att förbereda dataramarna för träning och förutsägelse.

Kommentar

De faktiska förutsägelserna körs på data av Eventhouse i del 9– Predict-anomalies-in-the-kql-queryset. I ett produktionsscenario, om du strömmade data till händelsehuset, skulle förutsägelserna göras på nya strömmande data. I självstudien har datamängden delats upp efter datum i två avsnitt för träning och förutsägelse. Detta är för att simulera historiska data och nya strömmande data.
```
features_cols = ['AAPL', 'AMZN', 'GOOG', 'MSFT', 'SPY']
cutoff_date = pd.to_datetime('2023-01-01')
```
```
train_df = df[df.Date < cutoff_date]
print(train_df.shape)
train_df[:3]
```
```
train_len = len(train_df)
predict_len = len(df) - train_len
print(f'Total samples: {len(df)}. Split to {train_len} for training, {predict_len} for testing')
```

Kör cellerna för att träna modellen och spara den i fabric MLflow-modellregistret.

import mlflow
from anomaly_detector import MultivariateAnomalyDetector
model = MultivariateAnomalyDetector()

sliding_window = 200
param   s = {"sliding_window": sliding_window}

model.fit(train_df, params=params)

with mlflow.start_run():
    mlflow.log_params(params)
    mlflow.set_tag("Training Info", "MVAD on 5 Stocks Dataset")

    model_info = mlflow.pyfunc.log_model(
        python_model=model,
        artifact_path="mvad_artifacts",
        registered_model_name="mvad_5_stocks_model",
    )

Kör följande cell för att extrahera den registrerade modellsökvägen som ska användas för prediktering med Kusto Python-sandbox-miljön.

mi = mlflow.search_registered_models(filter_string="name='mvad_5_stocks_model'")[0]
model_abfss = mi.latest_versions[0].source
print(model_abfss)

Kopiera modell-URI:n från den sista cellens utdata för användning i ett senare steg.

Del 8 – Konfigurera din KQL-frågeuppsättning

Allmän information finns i Skapa en KQL-frågeuppsättning.

Från arbetsytan väljer du +Nytt objekt>KQL Queryset.
Ange namnet MultivariateAnomalyDetectionTutorialoch välj sedan Skapa.
I fönstret OneLake-datahubben väljer du den KQL-databas där du lagrade data.
Välj Anslut.

Del 9 – Förutsäga avvikelser i KQL-frågeuppsättningen

Kör följande ".create-or-alter-funktion"-fråga för att definiera den predict_fabric_mvad_fl() lagrade funktionen:

.create-or-alter function with (folder = "Packages\\ML", docstring = "Predict MVAD model in Microsoft Fabric")
predict_fabric_mvad_fl(samples:(*), features_cols:dynamic, artifacts_uri:string, trim_result:bool=false)
{
    let s = artifacts_uri;
    let artifacts = bag_pack('MLmodel', strcat(s, '/MLmodel;impersonate'), 'conda.yaml', strcat(s, '/conda.yaml;impersonate'),
                             'requirements.txt', strcat(s, '/requirements.txt;impersonate'), 'python_env.yaml', strcat(s, '/python_env.yaml;impersonate'),
                             'python_model.pkl', strcat(s, '/python_model.pkl;impersonate'));
    let kwargs = bag_pack('features_cols', features_cols, 'trim_result', trim_result);
    let code = ```if 1:
        import os
        import shutil
        import mlflow
        model_dir = 'C:/Temp/mvad_model'
        model_data_dir = model_dir + '/data'
        os.mkdir(model_dir)
        shutil.move('C:/Temp/MLmodel', model_dir)
        shutil.move('C:/Temp/conda.yaml', model_dir)
        shutil.move('C:/Temp/requirements.txt', model_dir)
        shutil.move('C:/Temp/python_env.yaml', model_dir)
        shutil.move('C:/Temp/python_model.pkl', model_dir)
        features_cols = kargs["features_cols"]
        trim_result = kargs["trim_result"]
        test_data = df[features_cols]
        model = mlflow.pyfunc.load_model(model_dir)
        predictions = model.predict(test_data)
        predict_result = pd.DataFrame(predictions)
        samples_offset = len(df) - len(predict_result)        # this model doesn't output predictions for the first sliding_window-1 samples
        if trim_result:                                       # trim the prefix samples
            result = df[samples_offset:]
            result.iloc[:,-4:] = predict_result.iloc[:, 1:]   # no need to copy 1st column which is the timestamp index
        else:
            result = df                                       # output all samples
            result.iloc[samples_offset:,-4:] = predict_result.iloc[:, 1:]
        ```;
    samples
    | evaluate python(typeof(*), code, kwargs, external_artifacts=artifacts)
}

Kör följande förutsägelsefråga och ersätt utdatamodellens URI med den URI som kopierades i slutet av steg 7.

Frågan identifierar multivarierade avvikelser på de fem lagren, baserat på den tränade modellen, och renderar resultatet som anomalychart. De avvikande punkterna återges på det första beståndet (AAPL), även om de representerar avvikelser med flera avvikelser (med andra ord avvikelser i de gemensamma ändringarna av de fem lagren under det specifika datumet).

let cutoff_date=datetime(2023-01-01);
let num_predictions=toscalar(demo_stocks_change | where Date >= cutoff_date | count);   //  number of latest points to predict
let sliding_window=200;                                                                 //  should match the window that was set for model training
let prefix_score_len = sliding_window/2+min_of(sliding_window/2, 200)-1;
let num_samples = prefix_score_len + num_predictions;
demo_stocks_change
| top num_samples by Date desc
| order by Date asc
| extend is_anomaly=bool(false), score=real(null), severity=real(null), interpretation=dynamic(null)
| invoke predict_fabric_mvad_fl(pack_array('AAPL', 'AMZN', 'GOOG', 'MSFT', 'SPY'),
            // NOTE: Update artifacts_uri to model path
            artifacts_uri='enter your model URI here',
            trim_result=true)
| summarize Date=make_list(Date), AAPL=make_list(AAPL), AMZN=make_list(AMZN), GOOG=make_list(GOOG), MSFT=make_list(MSFT), SPY=make_list(SPY), anomaly=make_list(toint(is_anomaly))
| render anomalychart with(anomalycolumns=anomaly, title='Stock Price Changest in % with Anomalies')

Det resulterande avvikelsediagrammet bör se ut som följande bild:

Rensa resurser

När du är klar med självstudien kan du ta bort resurserna, som du har skapat för att undvika andra kostnader. Följ dessa steg för att ta bort resurserna:

Bläddra till arbetsytans startsida.
Ta bort miljön som skapades i den här självstudien.
Ta bort anteckningsboken som skapades i den här självstudien.
Ta bort händelsehuset eller databasen som används i den här självstudien.
Ta bort KQL-frågeuppsättningen som skapades i den här självstudien.

Dela via