Plug-in diffpatterns_text
Aplica-se a: ✅Microsoft Fabric✅Azure Data Explorer
Compara dois conjuntos de dados de valores de cadeia de caracteres e localiza padrões de texto que caracterizam as diferenças entre os dois conjuntos de dados. O plug-in é invocado com o evaluate
operador.
O diffpatterns_text
retorna um conjunto de padrões de texto que capturam diferentes partes dos dados nos dois conjuntos. Por exemplo, um padrão que captura uma grande porcentagem das linhas quando a condição é true
e uma baixa porcentagem das linhas quando a condição é false
. Os padrões são criados a partir de tokens consecutivos separados por espaço em branco, com um token da coluna de texto ou um *
representando um curinga. Cada padrão é representado por uma linha nos resultados.
Sintaxe
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
Saiba mais sobre as convenções de sintaxe.
Parâmetros
Nome | Digitar | Obrigatória | Descrição |
---|---|---|---|
Coluna de texto | string |
✔️ | A coluna de texto a ser analisada. |
BooleanCondition | string |
✔️ | Uma expressão que é avaliada como um valor booliano. O algoritmo divide a consulta nos dois conjuntos de dados para comparar com base nessa expressão. |
MinTokens | int |
Um valor inteiro entre 0 e 200 que representa o número mínimo de tokens não curinga por padrão de resultado. O padrão é 1. | |
Limite | decimal |
Um valor decimal entre 0,015 e 1 que define a diferença mínima da taxa de padrão entre os dois conjuntos. O padrão é 0,05. Veja diffpatterns. | |
MaxTokens | int |
Um valor inteiro entre 0 e 20 que define o número máximo de tokens por padrão de resultado, especificando um limite inferior diminui o tempo de execução da consulta. |
Devoluções
O resultado de diffpatterns_text retorna as seguintes colunas:
- Count_of_True: O número de linhas que correspondem ao padrão quando a condição é
true
. - Count_of_False: O número de linhas que correspondem ao padrão quando a condição é
false
. - Percent_of_True: A porcentagem de linhas que correspondem ao padrão das linhas quando a condição é
true
. - Percent_of_False: A porcentagem de linhas que correspondem ao padrão das linhas quando a condição é
false
. - Padrão: o padrão de texto que contém tokens da cadeia de caracteres de texto e '
*
' para curingas.
Observação
Os padrões não são necessariamente distintos e podem não fornecer cobertura total do conjunto de dados. Os padrões podem estar sobrepostos e algumas linhas podem não corresponder a nenhum padrão.
Exemplo
O exemplo a seguir usa dados da tabela StormEvents no cluster de ajuda. Para acessar esses dados, faça login no https://dataexplorer.azure.com/clusters/help/databases/Samples. No menu à esquerda, navegue para ajudar>Exemplos>de tabelas>Storm_Events.
Os exemplos neste tutorial usam a StormEvents
tabela, que está disponível publicamente nos dados de exemplo da análise meteorológica.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Saída
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Padrão |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Ventos mudando para noroeste em * esteira * um cavado de superfície trouxe forte efeito de lago queda de neve a favor do vento * Lago Superior de |
9 | 0 | 5,14 | 0 | A região canadense de alta pressão sedimentada * * produziu as temperaturas mais frias desde fevereiro * 2006. Durações * temperaturas de congelamento |
0 | 34 | 0 | 6.24 | * * * * |
0 | 42 | 0 | 7.71 | * * * * * |
0 | 45 | 0 | 8.26 | * * abaixo do normal * |
0 | 110 | 0 | 20.18 | Abaixo do normal * |