Compartir a través de


Complemento diffpatterns_text

Se aplica a: ✅Microsoft FabricAzure Data Explorer

Compara dos conjuntos de datos de valores de cadena y busca patrones de texto que caracterizan las diferencias entre los dos conjuntos de datos. El complemento se invoca con el evaluate operador .

diffpatterns_text devuelve un conjunto de patrones de texto que capturan partes diferentes de los datos de los dos conjuntos. Por ejemplo, un patrón que captura un gran porcentaje de las filas cuando la condición es true y un porcentaje bajo de las filas cuando la condición es false. Los patrones se crean a partir de tokens consecutivos separados por espacios en blanco, con un token de la columna de texto o un * que representa un carácter comodín. Cada patrón se representa mediante una fila en los resultados.

Sintaxis

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Obtenga más información sobre las convenciones de sintaxis.

Parámetros

Nombre Type Obligatorio Descripción
TextColumn string ✔️ Columna de texto que se va a analizar.
BooleanCondition string ✔️ Expresión que se evalúa como un valor booleano. El algoritmo divide la consulta en los dos conjuntos de datos que se van a comparar en función de esta expresión.
MinTokens int Valor entero entre 0 y 200 que representa el número mínimo de tokens que no son comodín por patrón de resultado. El valor predeterminado es 1.
Umbral decimal Valor decimal entre 0,015 y 1 que establece la diferencia de relación de patrón mínima entre los dos conjuntos. El valor predeterminado es 0,05. Consulte diffpatterns.
MaxTokens int Valor entero entre 0 y 20 que establece el número máximo de tokens por patrón de resultado, especificando un límite inferior disminuye el tiempo de ejecución de la consulta.

Devoluciones

El resultado de diffpatterns_text devuelve las columnas siguientes:

  • Count_of_True: número de filas que coinciden con el patrón cuando la condición es true.
  • Count_of_False: número de filas que coinciden con el patrón cuando la condición es false.
  • Percent_of_True: el porcentaje de filas que coinciden con el patrón de las filas cuando la condición es true.
  • Percent_of_False: porcentaje de filas que coinciden con el patrón de las filas cuando la condición es false.
  • Patrón: patrón de texto que contiene tokens de la cadena de texto y "*" para caracteres comodín.

Nota:

Los patrones no son necesariamente distintos y pueden no proporcionar cobertura completa del conjunto de datos. Los patrones pueden estar superpuestos y es posible que algunas filas no coincidan con ningún patrón.

Ejemplo

En el ejemplo siguiente se usan datos de la tabla StormEvents en el clúster de ayuda. Para acceder a estos datos, inicie sesión en https://dataexplorer.azure.com/clusters/help/databases/Samples. En el menú de la izquierda, vaya a ayuda>de ejemplos>tablas>Storm_Events.

En los ejemplos de este tutorial se usa la StormEvents tabla , que está disponible públicamente en los datos de ejemplo de Análisis meteorológicos.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Salida

Count_of_True Count_of_False Percent_of_True Percent_of_False Patrón
11 0 6.29 0 Vientos que se desplazan al noroeste en * reactivación * un área de superficie que trajo una caída de nieve de efecto pesado del lago hacia abajo * Lago Superior desde
9 0 5.14 0 La alta presión canadiense se estableció * * región * produjo las temperaturas más frías desde febrero * 2006. Duraciones * temperaturas de congelación
0 34 0 6.24 * * * Oeste de Tennessee,
0 42 0 7.71 * * causado * * * en el oeste de Colorado. *
0 45 0 8.26 * por debajo de lo normal *
0 110 0 20.18 Por debajo de normal *