共用方式為


autocluster 外掛程式

適用於: ✅Microsoft網狀架構Azure 數據總管

autocluster 在數據中尋找離散屬性(維度)的常見模式。 然後,它會將原始查詢的結果,無論是 100 或 100,000 個數據列,縮減為幾個模式。 外掛程式是開發來協助分析失敗(例如例外狀況或當機),但可能會在任何篩選的數據集上運作。 外掛程式是使用運算子叫 evaluate 用的。

注意

autocluster 主要以下列檔中的 Seed-Expand 演算法為基礎: 使用離散屬性進行遙測數據採礦的演算法。

語法

T (autocluster | evaluate [SizeWeight [, WeightColumn [, NumSeeds [ CustomWildcard [, , ... ]]]]])

深入瞭解 語法慣例

參數

參數必須依照語法中指定的順序排序。 若要指出應該使用預設值,請將字串底狀值 ~放在 。 如需詳細資訊,請參閱範例

名稱 類型​​ 必要 描述
T string ✔️ 輸入表格式表達式。
SizeWeight double 介於 0 和 1 之間的雙精度浮點數,控制泛型(高涵蓋範圍)與資訊性(許多共用)值之間的平衡。 增加此值通常會在擴充涵蓋範圍時減少模式的數量。 相反地,減少此值會產生更特定的模式,其特徵是增加的共用值和較小的百分比涵蓋範圍。 預設值為 0.5。 公式是加權幾何平均數,具有權數 SizeWeight1-SizeWeight
WeightColumn string 根據指定的權數,考慮輸入中的每個數據列。 每個資料列的預設權數為 1。 自變數必須是數值整數數據行的名稱。 加權數據行的常見用法是考慮已內嵌至每個數據列的數據取樣或貯體或匯總。
NumSeeds int 決定初始本機搜尋點的數目。 根據數據結構調整種子影響的結果數量或品質。 增加種子可以增強結果,但查詢取捨速度較慢。 減少低於5個會產生微不足道的改善,而增加超過50則很少會產生更多模式。 預設值為 25
CustomWildcard string 類型常值,會設定結果數據表中特定類型的通配符值,表示此數據行沒有限制。 預設值為 null,表示空字串。 如果預設值是資料中的良好值,則應該使用不同的通配符值,例如 *。 您可以連續新增多個自訂通配符來包含這些通配符。

傳回

外掛程式 autocluster 通常會傳回一組小型模式。 模式會擷取跨多個離散屬性共用通用值的數據部分。 結果中的每個模式都會以一個數據列表示。

第一個數據行是區段標識碼。 接下來的兩個數據行是模式所擷取之原始查詢的數據列計數和百分比。 其餘數據行來自原始查詢。 其值可以是來自數據行的特定值,或是通配符值(預設為 null),表示變數值。

模式不相異、可能重疊,而且通常不會涵蓋所有原始數據列。 某些數據列可能不屬於任何模式。

提示

使用 輸入管道中的 whereproject ,將數據縮減為您感興趣的專案。

當您找到一個有趣的數據列時,您可能會想要將特定值新增至篩選, where 進一步鑽研它。

範例

使用評估

T | evaluate autocluster()

使用 autocluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

輸出

SegmentId 計數 Percent 州/省 EventType 損傷
0 2278 38.7 冰雹 [否]
1 512 8.7 雷暴風 [是]
2 898 15.3 德克薩斯州

使用自訂通配符

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

輸出

SegmentId 計數 Percent 州/省 EventType 損傷
0 2278 38.7 * 冰雹 [否]
1 512 8.7 * 雷暴風 [是]
2 898 15.3 德克薩斯州 * *