ANALYZE TABLE
적용 대상: Databricks SQL Databricks Runtime
이 문은 ANALYZE TABLE
특정 테이블 또는 지정된 스키마의 모든 테이블에 대한 예상 통계를 수집합니다. 이러한 통계는 쿼리 최적화 프로그램에서 최적의 쿼리 계획을 생성하는 데 사용됩니다.
예측 최적화는 ON Unity 카탈로그 관리 테이블을 자동으로 실행 ANALYZE
합니다. Databricks는 데이터 유지 관리를 간소화하고 스토리지 비용을 절감하기 위해 모든 Unity 카탈로그 관리 테이블에 대해 예측 최적화를 사용하도록 설정하는 것이 좋습니다. Unity 카탈로그 관리 테이블에 대한 예측 최적화를 참조하세요.
Important
예측 최적화 ANALYZE
는 공개 미리 보기로 제공됩니다. 여기에는 쓰기 중에 지능형 통계 수집이 포함됩니다. 공개 미리 보기에 등록하려면 이 양식을 사용합니다.
구문
ANALYZE TABLE table_name [ PARTITION clause ]
COMPUTE [ DELTA ] STATISTICS [ NOSCAN | FOR COLUMNS col1 [, ...] | FOR ALL COLUMNS ]
ANALYZE TABLES [ { FROM | IN } schema_name ] COMPUTE STATISTICS [ NOSCAN ]
매개 변수
-
분석할 테이블을 식별합니다. 이름에는 임시 사양이나 옵션 사양 또는 경로가 포함되어서는 안됩니다. 테이블을 찾을 수 없는 경우 Azure Databricks는 TABLE_OR_VIEW_NOT_FOUND 오류를 발생시킵니다.
-
필요에 따라 명령을 파티션의 하위 집합으로 제한합니다.
이 절은 Delta Lake 테이블에 대해 지원되지 않습니다.
DELTA
적용 대상: Databricks SQL Databricks Runtime 14.3 LTS 이상
델타 테이블의 통계 수집에 대해 구성된 열에 대해 델타 로그에 저장된 통계를 다시 계산합니다.
키워드를
DELTA
지정하면 쿼리 최적화 프로그램의 일반 통계가 수집되지 않습니다.Databricks는 테이블의 모든 행에 대한 통계를 업데이트하기 위해 데이터 건너뛰기용 새 열을 설정한 후 실행하는
ANALYZE TABLE table_name COMPUTE DELTA STATISTICS
것이 좋습니다. 최적화된 성능을 위해 델타 로그 업데이트가 완료된 후 쿼리 계획을 업데이트하려면 실행ANALYZE TABLE table_name COMPUTE STATISTICS
합니다.[ NOSCAN | FOR COLUMNS col [, …] | FOR ALL COLUMNS ]
분석 옵션을 지정하지 않으면
ANALYZE TABLE
에서 테이블의 행 수와 크기(바이트)를 수집합니다.NOSCAN
테이블의 크기(전체 테이블을 검색할 필요가 없음)만 바이트 단위로 수집합니다.
FOR COLUMNS col [, …] | FOR ALL COLUMNS
지정된 각 열에 대한 열 통계를 수집하거나 테이블 통계뿐만 아니라 모든 열에 대한 통계를 수집합니다.
열 통계는
PARTITION
절과 함께 지원되지 않습니다.
{ FROM
|
IN } schema_name분석할 스키마의 이름을 지정합니다. 스키마 이름이 없으면
ANALYZE TABLES
는 현재 사용자가 분석할 권한이 있는 현재 스키마의 모든 테이블을 수집합니다.
예제
> CREATE TABLE students (name STRING, student_id INT) PARTITIONED BY (student_id);
> INSERT INTO students PARTITION (student_id = 111111) VALUES ('Mark');
> INSERT INTO students PARTITION (student_id = 222222) VALUES ('John');
> ANALYZE TABLE students COMPUTE STATISTICS NOSCAN;
> DESC EXTENDED students;
col_name data_type comment
-------------------- -------------------- -------
name string null
student_id int null
... ... ...
Statistics 864 bytes
... ... ...
> ANALYZE TABLE students COMPUTE STATISTICS;
> DESC EXTENDED students;
col_name data_type comment
-------------------- -------------------- -------
name string null
student_id int null
... ... ...
Statistics 864 bytes, 2 rows
... ... ...
-- Note: ANALYZE TABLE .. PARTITION is not supported for Delta tables.
> ANALYZE TABLE students PARTITION (student_id = 111111) COMPUTE STATISTICS;
> DESC EXTENDED students PARTITION (student_id = 111111);
col_name data_type comment
-------------------- -------------------- -------
name string null
student_id int null
... ... ...
Partition Statistics 432 bytes, 1 rows
... ... ...
OutputFormat org.apache.hadoop...
> ANALYZE TABLE students COMPUTE STATISTICS FOR COLUMNS name;
> DESC EXTENDED students name;
info_name info_value
-------------- ----------
col_name name
data_type string
comment NULL
min NULL
max NULL
num_nulls 0
distinct_count 2
avg_col_len 4
max_col_len 4
histogram NULL
> ANALYZE TABLES IN school_schema COMPUTE STATISTICS NOSCAN;
> DESC EXTENDED teachers;
col_name data_type comment
-------------------- -------------------- -------
name string null
teacher_id int null
... ... ...
Statistics 1382 bytes
... ... ...
> DESC EXTENDED students;
col_name data_type comment
-------------------- -------------------- -------
name string null
student_id int null
... ... ...
Statistics 864 bytes
... ... ...
> ANALYZE TABLES COMPUTE STATISTICS;
> DESC EXTENDED teachers;
col_name data_type comment
-------------------- -------------------- -------
name string null
teacher_id int null
... ... ...
Statistics 1382 bytes, 2 rows
... ... ...
> DESC EXTENDED students;
col_name data_type comment
-------------------- -------------------- -------
name string null
student_id int null
... ... ...
Statistics 864 bytes, 2 rows
... ... ...
> ANALYZE TABLE some_delta_table COMPUTE DELTA STATISTICS;