diffpatterns_text 外掛程式
適用於: ✅Microsoft網狀架構✅Azure 數據總管
比較兩個字串值的數據集,並尋找描述兩個數據集之間差異的文字模式。 外掛程式是使用運算子叫 evaluate
用的。
會 diffpatterns_text
傳回一組文字模式,以擷取兩個集合中不同部分的數據。 例如,當條件為 true
時,模式會擷取大百分比的數據列,而條件為 false
時的數據列百分比較低。 這些模式是以空格符分隔的連續標記所建置,而文字數據行的標記或 *
代表通配符的標記。 每個模式都會以結果中的數據列來表示。
語法
T | evaluate diffpatterns_text(
TextColumn、 BooleanCondition [、 MinTokens、 Threshold 、 MaxTokens])
深入瞭解 語法慣例。
參數
姓名 | 類型 | 必要 | 描述 |
---|---|---|---|
TextColumn | string |
✔️ | 要分析的文字數據行。 |
BooleanCondition | string |
✔️ | 評估為布爾值的表達式。 演算法會將查詢分割成兩個數據集,以根據這個表達式進行比較。 |
MinTokens | int |
介於 0 到 200 之間的整數值,表示每個結果模式的非通配符令牌數目下限。 預設值是 1。 | |
閾值 | decimal |
介於 0.015 和 1 之間的十進位值,可設定兩個集合之間的最小模式比例差異。 預設值為 0.05。 請參閱 diffpatterns。 | |
MaxTokens | int |
介於 0 到 20 之間的整數值,可設定每個結果模式的最大標記數目,指定較低的限制會減少查詢運行時間。 |
傳回
diffpatterns_text的結果會傳回下列數據行:
- Count_of_True:條件
true
為 時符合模式的數據列數目。 - Count_of_False:當條件為
false
時,符合模式的數據列數目。 - Percent_of_True:條件為 時,符合數據
true
列模式的數據列百分比。 - Percent_of_False:條件為 時,符合數據
false
列模式的數據列百分比。 - 模式:包含文字字串中標記的文字模式,以及通配符的 『
*
' 。
注意
模式不一定不同,而且可能不會提供數據集的完整涵蓋範圍。 模式可能會重疊,有些數據列可能不符合任何模式。
範例
下列範例會使用說明叢集中 StormEvents 數據表的數據。 若要存取此資料,請登入 https://dataexplorer.azure.com/clusters/help/databases/Samples。 在左側功能表中,流覽至 [>範例>數據表>] Storm_Events。
本教學課程中的範例會使用StormEvents
可在天氣分析範例數據中公開使用的數據表。
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
輸出
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | 模式 |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | 風向西北移動 * 喚醒 * 地表低谷帶來了沉重的湖效應降雪下降 * 湖上級從 |
9 | 0 | 5.14 | 0 | 加拿大高壓定居 * 地區 * 產生了自 2006 年 2 月以來最冷的溫度。 持續時間 * 凍結溫度 |
0 | 34 | 0 | 6.24 | * * 西田納西, |
0 | 42 | 0 | 7.71 | * * * * 造成 * 跨科羅拉多西部。 * |
0 | 45 | 0 | 8.26 | * * 低於一般 * |
0 | 110 | 0 | 20.18 | 低於標準 * |