diffpatterns_text, plug-in
S’applique à : ✅Microsoft Fabric✅Azure Data Explorer
Compare deux jeux de données de valeurs de chaîne et recherche des modèles de texte qui caractérisent les différences entre les deux jeux de données. Le plug-in est appelé avec l’opérateur evaluate
.
Retourne diffpatterns_text
un ensemble de modèles de texte qui capturent différentes parties des données dans les deux jeux. Par exemple, un modèle capturant un pourcentage important des lignes lorsque la condition est true
et un faible pourcentage des lignes lorsque la condition est false
. Les modèles sont générés à partir de jetons consécutifs séparés par un espace blanc, avec un jeton de la colonne de texte ou un *
représentant un caractère générique. Chaque modèle est représenté par une ligne dans les résultats.
Syntaxe
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
En savoir plus sur les conventions de syntaxe.
Paramètres
Nom | Type | Requise | Description |
---|---|---|---|
TextColumn | string |
✔️ | Colonne de texte à analyser. |
BooleanCondition | string |
✔️ | Expression qui prend la valeur booléenne. L’algorithme fractionne la requête en deux jeux de données à comparer en fonction de cette expression. |
MinTokens | int |
Valeur entière comprise entre 0 et 200 qui représente le nombre minimal de jetons non génériques par modèle de résultat. La valeur par défaut est 1. | |
Seuil | decimal |
Valeur décimale comprise entre 0,015 et 1 qui définit la différence de rapport de modèle minimale entre les deux ensembles. La valeur par défaut est 0.05. Voir les différences. | |
MaxTokens | int |
Valeur entière comprise entre 0 et 20 qui définit le nombre maximal de jetons par modèle de résultat, en spécifiant une limite inférieure, diminue le runtime de requête. |
Retours
Le résultat de diffpatterns_text retourne les colonnes suivantes :
- Count_of_True : nombre de lignes correspondant au modèle lorsque la condition est
true
. - Count_of_False : nombre de lignes correspondant au modèle lorsque la condition est
false
. - Percent_of_True : pourcentage de lignes correspondant au modèle à partir des lignes lorsque la condition est
true
. - Percent_of_False : pourcentage de lignes correspondant au modèle à partir des lignes lorsque la condition est
false
. - Modèle : modèle de texte contenant des jetons de la chaîne de texte et «
*
» pour les caractères génériques.
Remarque
Les modèles ne sont pas nécessairement distincts et peuvent ne pas fournir une couverture complète du jeu de données. Les modèles peuvent se chevaucher et certaines lignes peuvent ne correspondre à aucun modèle.
Exemple
L’exemple suivant utilise des données de la table StormEvents dans le cluster d’aide. Pour accéder à ces données, connectez-vous à https://dataexplorer.azure.com/clusters/help/databases/Samples. Dans le menu de gauche, accédez à l’aide>des tables>d’exemples>Storm_Events.
Les exemples de ce didacticiel utilisent la StormEvents
table, qui est publiquement disponible dans les exemples de données d’analyse météorologique.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Sortie
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Modèle |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Les vents se déplaçant vers le nord-ouest en * wake * un creux de surface a apporté de fortes chutes de neige dans le vent * lac Supérieur à partir de |
9 | 0 | 5.14 | 0 | La haute pression canadienne s’est installée * * région * a produit les températures les plus froides depuis février * 2006. Durées * températures de congélation |
0 | 34 | 0 | 6.24 | * * * * * * * West Tennessee, |
0 | 42 | 0 | 7.71 | * * provoqué * * dans l’ouest du Colorado. * |
0 | 45 | 0 | 8.26 | * * inférieur à la normale * |
0 | 110 | 0 | 20.18 | En dessous de la normale * |