count_min_sketch
statistische functie
Van toepassing op: Databricks SQL Databricks Runtime
Retourneert een count-min sketch van alle waarden van de groep in column
met gebruik van epsilon
, confidence
en seed
.
In Databricks SQL en Databricks Runtime 13.3 LTS en hoger ondersteunt deze functie benoemde parametertoeroepen.
Syntaxis
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
Deze functie kan ook worden aangeroepen als een vensterfunctie met behulp van de OVER
clausule.
Argumenten
-
column
: Een expressie die resulteert in een integraal numeriek,STRING
ofBINARY
. -
epsilon
: EenDOUBLE
letterlijke waarde groter dan 0 die de relatieve fout beschrijft. -
confidence
: EenDOUBLE
letterlijke waarde groter dan 0 en kleiner dan 1. -
seed
: EenINTEGER
letterlijke. -
cond
: Een optionele Boole-expressie die de rijen filtert die worden gebruikt voor aggregatie.
Retouren
A BINARY
.
Count-min schets is een probabilistische gegevensstructuur die wordt gebruikt voor het schatten van kardinaliteit met behulp van sub-lineaire ruimte.
Als DISTINCT
is opgegeven, werkt de functie alleen op een unieke set expr
waarden.
Voorbeelden
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000