Delen via


count_min_sketch statistische functie

Van toepassing op:vinkje als ja aan Databricks SQL vinkje als ja aan Databricks Runtime

Retourneert een count-min sketch van alle waarden van de groep in column met gebruik van epsilon, confidence en seed.

In Databricks SQL en Databricks Runtime 13.3 LTS en hoger ondersteunt deze functie benoemde parametertoeroepen.

Syntaxis

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Deze functie kan ook worden aangeroepen als een vensterfunctie met behulp van de OVER clausule.

Argumenten

  • column: Een expressie die resulteert in een integraal numeriek, STRINGof BINARY.
  • epsilon: Een DOUBLE letterlijke waarde groter dan 0 die de relatieve fout beschrijft.
  • confidence: Een DOUBLE letterlijke waarde groter dan 0 en kleiner dan 1.
  • seed: Een INTEGER letterlijke.
  • cond: Een optionele Boole-expressie die de rijen filtert die worden gebruikt voor aggregatie.

Retouren

A BINARY.

Count-min schets is een probabilistische gegevensstructuur die wordt gebruikt voor het schatten van kardinaliteit met behulp van sub-lineaire ruimte.

Als DISTINCT is opgegeven, werkt de functie alleen op een unieke set expr waarden.

Voorbeelden

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000