count_min_sketch
funkcja agregacji
Dotyczy: Databricks SQL
Databricks Runtime
Zwraca szkic Count-Min wszystkich wartości w grupie w column
z epsilon
, confidence
i seed
.
W usługach Databricks SQL i Databricks Runtime 13.3 LTS i nowszych ta funkcja obsługuje wywołanie nazwanych parametrów.
Składnia
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Tę funkcję można również wywołać jako funkcję okna przy użyciu klauzuli OVER
.
Argumenty
-
column
: wyrażenie, które oblicza wartość liczbową całkowitą,STRING
lubBINARY
. -
epsilon
: wartośćDOUBLE
większa niż 0, opisująca błąd względny. -
confidence
DOUBLE
: literał większy niż 0 i mniejszy niż 1. -
seed
INTEGER
: literał. -
cond
: opcjonalne wyrażenie logiczne filtrujące wiersze używane do agregacji.
Zwraca
A BINARY
.
Szkic count-min to struktura danych probabilistyczna używana do szacowania kardynalności przy użyciu przestrzeni podrzędnej.
Jeśli DISTINCT
jest określona, funkcja działa tylko na unikatowym zestawie wartości expr
.
Przykłady
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000