count_min_sketch
集計関数
適用対象: Databricks SQL Databricks Runtime
epsilon
、confidence
および seed
を使用して、column
のグループ内のすべての値のカウント最小のスケッチを返します。
Databricks SQL および Databricks Runtime 13.3 LTS 以降では、この関数は名前付きパラメータ呼び出しをサポートしています。
構文
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
この関数は、OVER
句を使用して ウィンドウ 関数として呼び出すこともできます。
引数
column
: 整数の数値、STRING
、またはBINARY
に評価される式。epsilon
: 相対エラーを記述する 0 より大きいDOUBLE
リテラル。confidence
: 0 より大きく 1 未満のDOUBLE
リテラル。seed
:INTEGER
リテラル。cond
: 集計に使用される行をフィルター処理するブール式 (省略可能)。
返品
BINARY
です。
最小カウント スケッチは、サブ線形空間を使用したカーディナリティ推定に使用される、確率的データ構造です。
DISTINCT
が指定されている場合、この関数は expr
値の一意のセットでのみ動作します。
例
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000