Plug-in diffpatterns_text
Si applica a: ✅Microsoft Fabric✅Azure Esplora dati
Confronta due set di dati di valori stringa e trova modelli di testo che caratterizzano le differenze tra i due set di dati. Il plug-in viene richiamato con l'operatore evaluate
.
Restituisce diffpatterns_text
un set di modelli di testo che acquisisce parti diverse dei dati nei due set. Ad esempio, un criterio che acquisisce una percentuale elevata delle righe quando la condizione è true
e una percentuale bassa delle righe quando la condizione è false
. I modelli vengono creati da token consecutivi separati da spazi vuoti, con un token della colonna di testo o un *
oggetto che rappresenta un carattere jolly. Ogni modello è rappresentato da una riga nei risultati.
Sintassi
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
Altre informazioni sulle convenzioni di sintassi.
Parametri
Nome | Digita | Obbligatorio | Descrizione |
---|---|---|---|
TextColumn | string |
✔️ | Colonna di testo da analizzare. |
BooleanCondition | string |
✔️ | Espressione che restituisce un valore booleano. L'algoritmo suddivide la query nei due set di dati da confrontare in base a questa espressione. |
MinTokens | int |
Valore intero compreso tra 0 e 200 che rappresenta il numero minimo di token non con caratteri jolly per modello di risultato. Il valore predefinito è 1. | |
Threshold | decimal |
Valore decimale compreso tra 0,015 e 1 che imposta la differenza minima tra i due set. Il valore predefinito è 0,05. Vedere diffpatterns. | |
MaxTokens | int |
Un valore intero compreso tra 0 e 20 che imposta il numero massimo di token per modello di risultato, specificando un limite inferiore riduce il runtime di query. |
Valori restituiti
Il risultato di diffpatterns_text restituisce le colonne seguenti:
- Count_of_True: numero di righe corrispondenti al criterio quando la condizione è
true
. - Count_of_False: numero di righe corrispondenti al criterio quando la condizione è
false
. - Percent_of_True: percentuale di righe corrispondenti al criterio dalle righe quando la condizione è
true
. - Percent_of_False: percentuale di righe corrispondenti al criterio dalle righe quando la condizione è
false
. - Pattern: modello di testo contenente token dalla stringa di testo e '
*
' per i caratteri jolly.
Nota
I modelli non sono necessariamente distinti e potrebbero non fornire una copertura completa del set di dati. I modelli possono essere sovrapposti e alcune righe potrebbero non corrispondere a alcun criterio.
Esempio
L'esempio seguente usa i dati della tabella StormEvents nel cluster della Guida. Per accedere a questi dati, accedere a https://dataexplorer.azure.com/clusters/help/databases/Samples. Nel menu a sinistra passare alla Guida>>Esempi tabelle>Storm_Events.
Gli esempi in questa esercitazione usano la StormEvents
tabella, disponibile pubblicamente nei dati di esempio di Analisi meteo.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Output
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Modello |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Venti che si spostano a nord-ovest in * sveglia * una superficie di troughe ha portato la neve pesante effetto lago giù * Lake Superior da |
9 | 0 | 5.14 | 0 | L'alta pressione canadese si è stabilizzata * regione * ha prodotto le temperature più fredde dal febbraio * 2006. Durate * temperature di congelamento |
0 | 34 | 0 | 6.24 | * * * * * * Tennessee occidentale, |
0 | 42 | 0 | 7.71 | * * * * causato * * * * * * in Colorado occidentale. * |
0 | 45 | 0 | 8.26 | * * al di sotto del normale * |
0 | 110 | 0 | 20.18 | Al di sotto del normale * |