count_min_sketch
(función de agregado)
Se aplica a: Databricks SQL Databricks Runtime
Devuelve un boceto de recuento mínimo de todos los valores del grupo de column
con epsilon
, confidence
y seed
.
En Databricks SQL y Databricks Runtime 13.3 LTS y versiones posteriores, esta función admite invocación de parámetros con nombre.
Sintaxis
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Esta función también se puede invocar como una función de ventana mediante la cláusula OVER
.
Argumentos
column
: Una expresión que se evalúa como una integral numérica,STRING
, oBINARY
.epsilon
: UnDOUBLE
literal mayor que 0 que describe el error relativo.confidence
: UnDOUBLE
literal mayor que 0 y menor que 1.seed
: UnINTEGER
literal.cond
: una expresión booleana opcional que filtra las filas usadas para la agregación.
Devoluciones
BINARY
.
El boceto de recuento mínimo es una estructura de datos probabilística, que se usa para la estimación de cardinalidad mediante espacio sublineal.
Si se especifica DISTINCT
, la función solo afecta a un conjunto de valores expr
único.
Ejemplos
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000