diffpatterns_text 外掛程式

發行項
11/23/2024

適用於： ✅Microsoft網狀架構✅Azure 數據總管

比較兩個字串值的數據集，並尋找描述兩個數據集之間差異的文字模式。外掛程式是使用運算子叫 evaluate 用的。

會 diffpatterns_text 傳回一組文字模式，以擷取兩個集合中不同部分的數據。例如，當條件為 true 時，模式會擷取大百分比的數據列，而條件為 false時的數據列百分比較低。這些模式是以空格符分隔的連續標記所建置，而文字數據行的標記或 * 代表通配符的標記。每個模式都會以結果中的數據列來表示。

語法

T | evaluate diffpatterns_text(TextColumn、 BooleanCondition [、 MinTokens、 Threshold 、 MaxTokens])

深入瞭解語法慣例。

參數

姓名	類型	必要	描述
TextColumn	`string`	✔️	要分析的文字數據行。
BooleanCondition	`string`	✔️	評估為布爾值的表達式。演算法會將查詢分割成兩個數據集，以根據這個表達式進行比較。
MinTokens	`int`		介於 0 到 200 之間的整數值，表示每個結果模式的非通配符令牌數目下限。預設值是 1。
閾值	`decimal`		介於 0.015 和 1 之間的十進位值，可設定兩個集合之間的最小模式比例差異。預設值為 0.05。請參閱 diffpatterns。
MaxTokens	`int`		介於 0 到 20 之間的整數值，可設定每個結果模式的最大標記數目，指定較低的限制會減少查詢運行時間。

傳回

diffpatterns_text的結果會傳回下列數據行：

Count_of_True：條件 true為時符合模式的數據列數目。
Count_of_False：當條件為 false時，符合模式的數據列數目。
Percent_of_True：條件為時，符合數據 true列模式的數據列百分比。
Percent_of_False：條件為時，符合數據 false列模式的數據列百分比。
模式：包含文字字串中標記的文字模式，以及通配符的『*' 。

注意

模式不一定不同，而且可能不會提供數據集的完整涵蓋範圍。模式可能會重疊，有些數據列可能不符合任何模式。

範例

下列範例會使用說明叢集中 StormEvents 數據表的數據。若要存取此資料，請登入 https://dataexplorer.azure.com/clusters/help/databases/Samples。在左側功能表中，流覽至 [>範例>數據表>] Storm_Events。

執行查詢

本教學課程中的範例會使用StormEvents可在天氣分析範例數據中公開使用的數據表。

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

輸出

Count_of_True	Count_of_False	Percent_of_True	Percent_of_False	模式
11	0	6.29	0	風向西北移動 * 喚醒 * 地表低谷帶來了沉重的湖效應降雪下降 * 湖上級從
9	0	5.14	0	加拿大高壓定居 * 地區 * 產生了自 2006 年 2 月以來最冷的溫度。持續時間 * 凍結溫度
0	34	0	6.24	* * 西田納西，
0	42	0	7.71	* * * * 造成 * 跨科羅拉多西部。 *
0	45	0	8.26	* * 低於一般 *
0	110	0	20.18	低於標準 *

共用方式為

diffpatterns_text 外掛程式

語法

參數

傳回

範例

意見反應

其他資源