Função de agregação count_min_sketch
Aplica-se a: SQL do Databricks Runtime do Databricks
Retorna um esboço de contagem mínima de todos os valores do grupo em column
com epsilon
, confidence
e seed
.
No Databricks SQL e Databricks Runtime 13.3 LTS e superior, essa função suporta invocação de parâmetro nomeado.
Sintaxe
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Essa função também pode ser invocada como uma função de janela usando a cláusula OVER
.
Argumentos
column
: uma expressão que é avaliada como um número inteiro,STRING
ouBINARY
.epsilon
: umDOUBLE
literal maior que 0 que descreve o erro relativo.confidence
: umDOUBLE
literal maior que 0 e menor que 1.seed
: umINTEGER
literal.cond
: uma expressão booliana opcional que filtra as linhas usadas para agregação.
Retornos
Um BINARY
.
A estimativa da contagem mínima é uma estrutura de dados probabilística usada para estimar a cardinalidade usando um espaço sublinear.
Se DISTINCT
for especificado, a função só vai operar em um conjunto exclusivo de valores expr
.
Exemplos
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000