次の方法で共有


count_min_sketch 集計関数

適用対象: 「はい」のチェック マーク Databricks SQL 「はい」のチェック マーク Databricks Runtime

epsilonconfidence および seed を使用して、column のグループ内のすべての値のカウント最小のスケッチを返します。

Databricks SQL および Databricks Runtime 13.3 LTS 以降では、この関数は名前付きパラメータ呼び出しをサポートしています。

構文

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

この関数は、OVER 句を使用して ウィンドウ 関数として呼び出すこともできます。

引数

  • column: 整数の数値、STRING、または BINARY に評価される式。
  • epsilon: 相対エラーを記述する 0 より大きい DOUBLE リテラル。
  • confidence: 0 より大きく 1 未満の DOUBLE リテラル。
  • seed: INTEGER リテラル。
  • cond: 集計に使用される行をフィルター処理するブール式 (省略可能)。

返品

BINARY です。

最小カウント スケッチは、サブ線形空間を使用したカーディナリティ推定に使用される、確率的データ構造です。

DISTINCT が指定されている場合、この関数は expr 値の一意のセットでのみ動作します。

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000