Fonction d’agrégation count_min_sketch
S’applique à : Databricks SQL Databricks Runtime
Retourne la valeur count_min sketch de toutes les valeurs du groupe dans column
avec epsilon
, confidence
et seed
.
Dans Databricks SQL et Databricks Runtime 13.3 LTS et versions ultérieures, cette fonction prend en charge l’appel de paramètre nommé.
Syntaxe
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Cette fonction peut également être appelée en tant que fonction de fenêtre à l’aide de la clause OVER
.
Arguments
column
: Une expression qui s'évalue à un nombre entier,STRING
, ouBINARY
.epsilon
: UnDOUBLE
littéral supérieur à 0 décrivant l'erreur relative.confidence
: UnDOUBLE
littéral supérieur à 0 et inférieur à 1.seed
: UnINTEGER
littéral.cond
: expression booléenne facultative qui filtre les lignes utilisées pour l’agrégation.
Retours
BINARY
.
Count-min sketch est une structure de données probabiliste utilisée pour l’estimation de la cardinalité avec l’espace sous-linéaire.
Si DISTINCT
est spécifié, la fonction ne s’applique qu’à un ensemble unique de valeurs expr
.
Exemples
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000