diffpatterns_text プラグイン
文字列値の 2 つのデータセットを比較し、2 つのデータセット間の違いを特徴付けするテキスト パターンを見つけます。 このプラグインは、evaluate
演算子を使用して呼び出されます。
diffpatterns_text
は、2 つのセット内のデータのさまざまな部分をキャプチャするテキスト パターンのセットを返します。 たとえば、条件が true
されている場合は行の大部分をキャプチャし、条件が false
場合は行の割合が低いパターンです。 パターンは、空白で区切られた連続するトークンから構築され、テキスト列のトークンまたはワイルドカードを表す *
を使用します。 各パターンは、結果内の行によって表されます。
構文
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
構文規則について詳しく知る。
パラメーター
件名 | タイプ | Required | 説明 |
---|---|---|---|
TextColumn | string |
✔️ | 分析するテキスト列。 |
BooleanCondition | string |
✔️ | ブール値に評価される式。 アルゴリズムは、この式に基づいて比較するために、クエリを 2 つのデータセットに分割します。 |
MinTokens | int |
結果パターンあたりのワイルドカード以外のトークンの最小数を表す 0 ~ 200 の整数値。 既定値は 1 です。 | |
しきい値 | decimal |
2 つのセット間の最小パターン比の差を設定する 0.015 ~ 1 の 10 進値。 既定値は 0.05 です。 「 diffpatternsを参照してください。 | |
MaxTokens | int |
結果パターンあたりのトークンの最大数を設定する 0 ~ 20 の整数値。下限を指定すると、クエリ ランタイムが減少します。 |
返品
diffpatterns_text の結果は次の列を返します。
- Count_of_True: 条件が
true
の場合に、パターンに一致する行の数。 - Count_of_False: 条件が
false
の場合に、パターンに一致する行の数。 - Percent_of_True: 条件が
true
の場合に、行からのパターンに一致する行の割合。 - Percent_of_False: 条件が
false
の場合に、行からのパターンに一致する行の割合。 - Pattern: テキスト文字列からのトークンと、ワイルドカードの場合は '
*
' を含むテキスト パターン。
Note
パターンは必ずしも異なるわけではなく、データセットの完全なカバレッジを提供しない場合があります。 パターンは重複していることがあり、一部の行はどのパターンとも一致しない場合があります。
例
次の例では、ヘルプ クラスターの StormEvents テーブルのデータを使用します。 このデータにアクセスするには、https://dataexplorer.azure.com/clusters/help/databases/Samples にサインインします。 左側のメニューで、help>Samples>Tables>Storm_Events を参照します。
このチュートリアルの例では、 StormEvents
テーブルを使用します。このテーブルは、 Weather analytics サンプル データで一般公開されています。
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
出力
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | パターン |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Winds shifting northwest in * wake * a surface trough brought heavy lake effect snowfall downwind * Lake Superior from |
9 | 0 | 5.14 | 0 | Canadian high pressure settled * * region * produced the coldest temperatures since February * 2006. Durations * freezing temperatures |
0 | 34 | 0 | 6.24 | * * * * * * * * * * * * * * * * * * West Tennessee, |
0 | 42 | 0 | 7.71 | * * * * * * caused * * * * * * * * across western Colorado. * |
0 | 45 | 0 | 8.26 | * * below normal * |
0 | 110 | 0 | 20.18 | Below normal * |