Агрегатная функция count_min_sketch
Область применения: Databricks SQL Databricks Runtime
Возвращает эскиз count-min всех значений в группе в выражении column
с epsilon
, confidence
и seed
.
В Databricks SQL и Databricks Runtime 13.3 LTS и выше эта функция поддерживает вызов именованных параметров.
Синтаксис
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Эту функцию также можно вызвать как функцию окна с помощью OVER
предложения.
Аргументы
-
column
: выражение, которое вычисляет целочисленное число,STRING
илиBINARY
. -
epsilon
: литералDOUBLE
больше 0, описывающий относительную ошибку. -
confidence
DOUBLE
: литерал больше 0 и меньше 1. -
seed
: литералINTEGER
. -
cond
: необязательное логическое выражение для фильтрации строк, используемых для агрегирования.
Возвраты
BINARY
.
Эскиз count-min содержит вероятностную структуру данных, которая используется для оценки кратности с использованием сублинейного пространства.
Если задано значение DISTINCT
, функция работает только с уникальным набором значений expr
.
Примеры
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000