count_min_sketch
funzione di aggregazione
Si applica a: Databricks SQL
Databricks Runtime
Restituisce uno schizzo count-min di tutti i valori nel gruppo in column
con epsilon
, confidence
e seed
.
In Databricks SQL e Databricks Runtime 13.3 LTS e versioni successive questa funzione supporta la chiamata di parametri denominati.
Sintassi
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Questa funzione può anche essere richiamata come funzione window usando la OVER
clausola .
Argomenti
-
column
: espressione che restituisce un valore numerico integrale,STRING
, oBINARY
. -
epsilon
: valoreDOUBLE
letterale maggiore di 0 che descrive l'errore relativo. -
confidence
: valoreDOUBLE
letterale maggiore di 0 e minore di 1. -
seed
: un valore letteraleINTEGER
. -
cond
: espressione booleana facoltativa che filtra le righe usate per l'aggregazione.
Valori restituiti
Un oggetto BINARY
.
Lo schizzo count-min è una struttura di dati probabilistica usata per la stima della cardinalità usando lo spazio sub-lineare.
Se DISTINCT
viene specificato, la funzione opera solo su un set univoco di expr
valori.
Esempi
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000