Condividi tramite


Plug-in diffpatterns_text

Si applica a: ✅Microsoft FabricAzure Esplora dati

Confronta due set di dati di valori stringa e trova modelli di testo che caratterizzano le differenze tra i due set di dati. Il plug-in viene richiamato con l'operatore evaluate .

Restituisce diffpatterns_text un set di modelli di testo che acquisisce parti diverse dei dati nei due set. Ad esempio, un criterio che acquisisce una percentuale elevata delle righe quando la condizione è true e una percentuale bassa delle righe quando la condizione è false. I modelli vengono creati da token consecutivi separati da spazi vuoti, con un token della colonna di testo o un * oggetto che rappresenta un carattere jolly. Ogni modello è rappresentato da una riga nei risultati.

Sintassi

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Altre informazioni sulle convenzioni di sintassi.

Parametri

Nome Digita Obbligatorio Descrizione
TextColumn string ✔️ Colonna di testo da analizzare.
BooleanCondition string ✔️ Espressione che restituisce un valore booleano. L'algoritmo suddivide la query nei due set di dati da confrontare in base a questa espressione.
MinTokens int Valore intero compreso tra 0 e 200 che rappresenta il numero minimo di token non con caratteri jolly per modello di risultato. Il valore predefinito è 1.
Threshold decimal Valore decimale compreso tra 0,015 e 1 che imposta la differenza minima tra i due set. Il valore predefinito è 0,05. Vedere diffpatterns.
MaxTokens int Un valore intero compreso tra 0 e 20 che imposta il numero massimo di token per modello di risultato, specificando un limite inferiore riduce il runtime di query.

Valori restituiti

Il risultato di diffpatterns_text restituisce le colonne seguenti:

  • Count_of_True: numero di righe corrispondenti al criterio quando la condizione è true.
  • Count_of_False: numero di righe corrispondenti al criterio quando la condizione è false.
  • Percent_of_True: percentuale di righe corrispondenti al criterio dalle righe quando la condizione è true.
  • Percent_of_False: percentuale di righe corrispondenti al criterio dalle righe quando la condizione è false.
  • Pattern: modello di testo contenente token dalla stringa di testo e '*' per i caratteri jolly.

Nota

I modelli non sono necessariamente distinti e potrebbero non fornire una copertura completa del set di dati. I modelli possono essere sovrapposti e alcune righe potrebbero non corrispondere a alcun criterio.

Esempio

L'esempio seguente usa i dati della tabella StormEvents nel cluster della Guida. Per accedere a questi dati, accedere a https://dataexplorer.azure.com/clusters/help/databases/Samples. Nel menu a sinistra passare alla Guida>>Esempi tabelle>Storm_Events.

Gli esempi in questa esercitazione usano la StormEvents tabella, disponibile pubblicamente nei dati di esempio di Analisi meteo.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Output

Count_of_True Count_of_False Percent_of_True Percent_of_False Modello
11 0 6.29 0 Venti che si spostano a nord-ovest in * sveglia * una superficie di troughe ha portato la neve pesante effetto lago giù * Lake Superior da
9 0 5.14 0 L'alta pressione canadese si è stabilizzata * regione * ha prodotto le temperature più fredde dal febbraio * 2006. Durate * temperature di congelamento
0 34 0 6.24 * * * * * * Tennessee occidentale,
0 42 0 7.71 * * * * causato * * * * * * in Colorado occidentale. *
0 45 0 8.26 * * al di sotto del normale *
0 110 0 20.18 Al di sotto del normale *