Udostępnij za pośrednictwem


count_min_sketch funkcja agregacji

Dotyczy: zaznacz pole wyboru oznaczone jako tak Databricks SQL zaznacz pole wyboru oznaczone jako tak Databricks Runtime

Zwraca minimalny szkic liczby wszystkich wartości w grupie w column liczbie z elementami epsiloni confidence seed.

W usługach Databricks SQL i Databricks Runtime 13.3 LTS i nowszych ta funkcja obsługuje wywołanie nazwanych parametrów.

Składnia

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Tę funkcję można również wywołać jako funkcję okna przy użyciu klauzuli OVER .

Argumenty

  • column: wyrażenie, które oblicza wartość liczbową całkowitą, STRINGlub BINARY.
  • epsilonDOUBLE: literał większy niż 0 opisujący błąd względny.
  • confidenceDOUBLE: literał większy niż 0 i mniejszy niż 1.
  • seedINTEGER: literał.
  • cond: opcjonalne wyrażenie logiczne filtrujące wiersze używane do agregacji.

Zwraca

Klasa BINARY.

Szkic count-min to struktura danych probabilistyczna używana do szacowania kardynalności przy użyciu przestrzeni podrzędnej.

Jeśli DISTINCT określono funkcję, działa tylko na unikatowym expr zestawie wartości.

Przykłady

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000