共用方式為


count_min_sketch 聚合函數

適用於: 核取記號為「是」Databricks SQL 核取記號為「是」Databricks Runtime

使用 epsilonconfidenceseed 傳回 群組中 column 所有值的 count-min 草圖。

在 Databricks SQL 和 Databricks Runtime 13.3 LTS 和更新版本中,此函式支援 具名參數調用

語法

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

您也可以使用 子句,將此函式叫用OVER視窗函式。

引數

  • column:評估為整數數值、 STRINGBINARY的表達式。
  • epsilonDOUBLE:描述相對錯誤的常值大於 0。
  • confidenceDOUBLE:常值大於 0 且小於 1。
  • seedINTEGER 常值。
  • cond:選擇性布爾表示式,篩選用於匯總的數據列。

傳回

BINARY

Count-min 草圖是使用子線性空間進行基數估計的概率數據結構。

如果 DISTINCT 指定 ,則函式只會在一組 expr 唯一的值上運作。

範例

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000