Compartilhar via


Função de agregação count_min_sketch

Aplica-se a: marca de seleção positiva SQL do Databricks marca de seleção positiva Runtime do Databricks

Retorna um esboço de contagem mínima de todos os valores do grupo em column com epsilon, confidence e seed.

No Databricks SQL e Databricks Runtime 13.3 LTS e superior, essa função suporta invocação de parâmetro nomeado.

Sintaxe

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Essa função também pode ser invocada como uma função de janela usando a cláusula OVER.

Argumentos

  • column: uma expressão que é avaliada como um número inteiro, STRING ou BINARY.
  • epsilon: um DOUBLE literal maior que 0 que descreve o erro relativo.
  • confidence: um DOUBLE literal maior que 0 e menor que 1.
  • seed: um INTEGER literal.
  • cond: uma expressão booliana opcional que filtra as linhas usadas para agregação.

Retornos

Um BINARY.

A estimativa da contagem mínima é uma estrutura de dados probabilística usada para estimar a cardinalidade usando um espaço sublinear.

Se DISTINCT for especificado, a função só vai operar em um conjunto exclusivo de valores expr.

Exemplos

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000