count_min_sketch
집계 함수
적용 대상: Databricks SQL Databricks Runtime
epsilon
, confidence
및 seed
를 사용하여 column
에서 그룹의 모든 값에 대한 최소 개수 스케치를 반환합니다.
Databricks SQL 및 Databricks Runtime 13.3 LTS 이상에서 이 함수는 명명된 매개 변수 호출을 지원합니다.
구문
count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]
이 함수는 OVER
절을 사용하여 창 함수로 호출할 수도 있습니다.
인수
column
: 정수 숫자STRING
또는BINARY
.로 계산되는 식입니다.epsilon
DOUBLE
: 상대 오류를 설명하는 0보다 큰 리터럴입니다.confidence
DOUBLE
: 0보다 크고 1보다 작은 리터럴입니다.seed
:INTEGER
리터럴.cond
: 집계에 사용되는 행을 필터링하는 선택적 부울 식입니다.
반품
BINARY
.
Count-min 스케치는 하위 선형 공간을 사용하여 카디널리티 추정에 사용되는 확률적 데이터 구조입니다.
DISTINCT
가 지정되면 함수는 고유한 expr
값 집합에서만 작동합니다.
예제
-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000
> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000