共用方式為


diffpatterns_text 外掛程式

適用於: ✅Microsoft網狀架構Azure 數據總管

比較兩個字串值的數據集,並尋找描述兩個數據集之間差異的文字模式。 外掛程式是使用運算子叫 evaluate 用的。

diffpatterns_text 傳回一組文字模式,以擷取兩個集合中不同部分的數據。 例如,當條件為 true 時,模式會擷取大百分比的數據列,而條件為 false時的數據列百分比較低。 這些模式是以空格符分隔的連續標記所建置,而文字數據行的標記或 * 代表通配符的標記。 每個模式都會以結果中的數據列來表示。

語法

T | evaluate diffpatterns_text(TextColumnBooleanCondition [、 MinTokensThresholdMaxTokens])

深入瞭解 語法慣例

參數

姓名 類型​​ 必要 描述
TextColumn string ✔️ 要分析的文字數據行。
BooleanCondition string ✔️ 評估為布爾值的表達式。 演算法會將查詢分割成兩個數據集,以根據這個表達式進行比較。
MinTokens int 介於 0 到 200 之間的整數值,表示每個結果模式的非通配符令牌數目下限。 預設值是 1。
閾值 decimal 介於 0.015 和 1 之間的十進位值,可設定兩個集合之間的最小模式比例差異。 預設值為 0.05。 請參閱 diffpatterns
MaxTokens int 介於 0 到 20 之間的整數值,可設定每個結果模式的最大標記數目,指定較低的限制會減少查詢運行時間。

傳回

diffpatterns_text的結果會傳回下列數據行:

  • Count_of_True:條件 true為 時符合模式的數據列數目。
  • Count_of_False:當條件為 false時,符合模式的數據列數目。
  • Percent_of_True:條件為 時,符合數據 true列模式的數據列百分比。
  • Percent_of_False:條件為 時,符合數據 false列模式的數據列百分比。
  • 模式:包含文字字串中標記的文字模式,以及通配符的 『*' 。

注意

模式不一定不同,而且可能不會提供數據集的完整涵蓋範圍。 模式可能會重疊,有些數據列可能不符合任何模式。

範例

下列範例會使用說明叢集中 StormEvents 數據表的數據。 若要存取此資料,請登入 https://dataexplorer.azure.com/clusters/help/databases/Samples。 在左側功能表中,流覽至 [>範例>數據表>] Storm_Events。

本教學課程中的範例會使用StormEvents可在天氣分析範例數據公開使用的數據表。

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

輸出

Count_of_True Count_of_False Percent_of_True Percent_of_False 模式
11 0 6.29 0 風向西北移動 * 喚醒 * 地表低谷帶來了沉重的湖效應降雪下降 * 湖上級從
9 0 5.14 0 加拿大高壓定居 * 地區 * 產生了自 2006 年 2 月以來最冷的溫度。 持續時間 * 凍結溫度
0 34 0 6.24 * * 西田納西,
0 42 0 7.71 * * * * 造成 * 跨科羅拉多西部。 *
0 45 0 8.26 * * 低於一般 *
0 110 0 20.18 低於標準 *