Complemento diffpatterns_text
Se aplica a: ✅Microsoft Fabric✅Azure Data Explorer
Compara dos conjuntos de datos de valores de cadena y busca patrones de texto que caracterizan las diferencias entre los dos conjuntos de datos. El complemento se invoca con el evaluate
operador .
diffpatterns_text
devuelve un conjunto de patrones de texto que capturan partes diferentes de los datos de los dos conjuntos. Por ejemplo, un patrón que captura un gran porcentaje de las filas cuando la condición es true
y un porcentaje bajo de las filas cuando la condición es false
. Los patrones se crean a partir de tokens consecutivos separados por espacios en blanco, con un token de la columna de texto o un *
que representa un carácter comodín. Cada patrón se representa mediante una fila en los resultados.
Sintaxis
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
Obtenga más información sobre las convenciones de sintaxis.
Parámetros
Nombre | Type | Obligatorio | Descripción |
---|---|---|---|
TextColumn | string |
✔️ | Columna de texto que se va a analizar. |
BooleanCondition | string |
✔️ | Expresión que se evalúa como un valor booleano. El algoritmo divide la consulta en los dos conjuntos de datos que se van a comparar en función de esta expresión. |
MinTokens | int |
Valor entero entre 0 y 200 que representa el número mínimo de tokens que no son comodín por patrón de resultado. El valor predeterminado es 1. | |
Umbral | decimal |
Valor decimal entre 0,015 y 1 que establece la diferencia de relación de patrón mínima entre los dos conjuntos. El valor predeterminado es 0,05. Consulte diffpatterns. | |
MaxTokens | int |
Valor entero entre 0 y 20 que establece el número máximo de tokens por patrón de resultado, especificando un límite inferior disminuye el tiempo de ejecución de la consulta. |
Devoluciones
El resultado de diffpatterns_text devuelve las columnas siguientes:
- Count_of_True: número de filas que coinciden con el patrón cuando la condición es
true
. - Count_of_False: número de filas que coinciden con el patrón cuando la condición es
false
. - Percent_of_True: el porcentaje de filas que coinciden con el patrón de las filas cuando la condición es
true
. - Percent_of_False: porcentaje de filas que coinciden con el patrón de las filas cuando la condición es
false
. - Patrón: patrón de texto que contiene tokens de la cadena de texto y "
*
" para caracteres comodín.
Nota:
Los patrones no son necesariamente distintos y pueden no proporcionar cobertura completa del conjunto de datos. Los patrones pueden estar superpuestos y es posible que algunas filas no coincidan con ningún patrón.
Ejemplo
En el ejemplo siguiente se usan datos de la tabla StormEvents en el clúster de ayuda. Para acceder a estos datos, inicie sesión en https://dataexplorer.azure.com/clusters/help/databases/Samples. En el menú de la izquierda, vaya a ayuda>de ejemplos>tablas>Storm_Events.
En los ejemplos de este tutorial se usa la StormEvents
tabla , que está disponible públicamente en los datos de ejemplo de Análisis meteorológicos.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Salida
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Patrón |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Vientos que se desplazan al noroeste en * reactivación * un área de superficie que trajo una caída de nieve de efecto pesado del lago hacia abajo * Lago Superior desde |
9 | 0 | 5.14 | 0 | La alta presión canadiense se estableció * * región * produjo las temperaturas más frías desde febrero * 2006. Duraciones * temperaturas de congelación |
0 | 34 | 0 | 6.24 | * * * Oeste de Tennessee, |
0 | 42 | 0 | 7.71 | * * causado * * * en el oeste de Colorado. * |
0 | 45 | 0 | 8.26 | * por debajo de lo normal * |
0 | 110 | 0 | 20.18 | Por debajo de normal * |