count_min_sketch
funkcja agregacji
Dotyczy: Databricks SQL Databricks Runtime
Zwraca minimalny szkic liczby wszystkich wartości w grupie w column
liczbie z elementami epsilon
i confidence
seed
.
W usługach Databricks SQL i Databricks Runtime 13.3 LTS i nowszych ta funkcja obsługuje wywołanie nazwanych parametrów.
Składnia
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Tę funkcję można również wywołać jako funkcję okna przy użyciu klauzuli OVER
.
Argumenty
column
: wyrażenie, które oblicza wartość liczbową całkowitą,STRING
lubBINARY
.epsilon
DOUBLE
: literał większy niż 0 opisujący błąd względny.confidence
DOUBLE
: literał większy niż 0 i mniejszy niż 1.seed
INTEGER
: literał.cond
: opcjonalne wyrażenie logiczne filtrujące wiersze używane do agregacji.
Zwraca
Klasa BINARY
.
Szkic count-min to struktura danych probabilistyczna używana do szacowania kardynalności przy użyciu przestrzeni podrzędnej.
Jeśli DISTINCT
określono funkcję, działa tylko na unikatowym expr
zestawie wartości.
Przykłady
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000