Udostępnij za pośrednictwem


count_min_sketch funkcja agregacji

Dotyczy:zaznacz pole wyboru oznaczone jako tak Databricks SQL zaznacz pole wyboru oznaczone jako tak Databricks Runtime

Zwraca szkic Count-Min wszystkich wartości w grupie w column z epsilon, confidence i seed.

W usługach Databricks SQL i Databricks Runtime 13.3 LTS i nowszych ta funkcja obsługuje wywołanie nazwanych parametrów.

Składnia

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Tę funkcję można również wywołać jako funkcję okna przy użyciu klauzuli OVER.

Argumenty

  • column: wyrażenie, które oblicza wartość liczbową całkowitą, STRINGlub BINARY.
  • epsilon: wartość DOUBLE większa niż 0, opisująca błąd względny.
  • confidence DOUBLE: literał większy niż 0 i mniejszy niż 1.
  • seed INTEGER: literał.
  • cond: opcjonalne wyrażenie logiczne filtrujące wiersze używane do agregacji.

Zwraca

A BINARY.

Szkic count-min to struktura danych probabilistyczna używana do szacowania kardynalności przy użyciu przestrzeni podrzędnej.

Jeśli DISTINCT jest określona, funkcja działa tylko na unikatowym zestawie wartości expr.

Przykłady

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000