Azure Data Explorer 작동 방식
Azure Data Explorer는 원격 분석, 로그, 이벤트, 추적 및 시계열 데이터를 수집 및 쿼리하기 위한 탁월한 성능을 제공합니다. 최적화된 스토리지 형식, 인덱스를 갖추고 있으며 효율적인 쿼리 계획 및 Just-In-Time 컴파일 쿼리 실행을 위해 고급 데이터 통계를 사용합니다.
스토리지 및 컴퓨팅
Azure Data Explorer는 스토리지 및 컴퓨팅 리소스를 구분합니다. 영구 데이터는 Azure Blob Storage에 상주하지만 컴퓨팅 리소스는 임시 데이터를 저장하거나 영구 스토리지의 캐시 역할을 할 수 있습니다.
이러한 분리는 다음과 같은 이점을 제공합니다.
- 스토리지 및 컴퓨팅 리소스를 독립적으로 확장합니다.
- 여러 컴퓨팅 클러스터에서 동일한 데이터에 대한 접근성. 자세한 내용은 데이터 공유를 참조하세요.
- SKU 최적화. 자세한 내용은 클러스터에 대한 SKU 선택을 참조하세요.
데이터 저장소
Azure Data Explorer는 수집된 모든 데이터를 대상 테이블의 가로 조각인 익스텐트 또는 데이터 분할된 데이터베이스로 분할합니다. 익스텐트를 단일 레코드만큼 작게 시작할 수 있습니다. 데이터가 테이블에 누적되면 Azure Data Explorer는 확장될 때까지 익스텐트에서 수백만 개의 레코드를 포함하도록 자동으로 병합합니다. 각 익스텐트에는 다른 익스텐트와 독립적으로 인코딩되고 인덱싱됩니다. 이 기능은 수집 처리량의 선형 규모에 기여합니다.
익스텐트 범위는 클러스터 노드에 균등하게 분산되며 로컬 SSD 및 메모리에 모두 캐시됩니다. 이 배포는 고도로 분산된 병렬 쿼리를 준비하고 실행할 수 있는 용량을 향상시킵니다.
데이터 스토리지에 대한 자세한 내용은 익스텐트 개요를 참조하세요.
참고 항목
Azure Data Explorer는 테이블 스키마 및 정책 개체와 같은 필수 메타데이터도 유지합니다. 정책 목록은 정책 개요를 참조하세요.
데이터 캐시
Azure Data Explorer에는 가장 관련성이 큰 데이터가 CPU에 최대한 가깝게 캐시되도록 하는 다중 계층 데이터 캐시 시스템이 있습니다. 캐시 시스템은 익스텐트의 불변성에 따라 달라지며 압축된 데이터에서 전적으로 작동합니다. 쿼리 성능을 향상시키기 위해 데이터는 RAM에서도 압축된 상태로 유지되며 쿼리에 필요한 경우에만 압축이 해제됩니다.
캐싱에 대한 자세한 내용은 캐시 정책을 참조하세요.
텍스트 인덱싱
Azure Data Explorer는 데이터가 수집될 때 자유 텍스트(문자열) 및 JSON과 유사한(동적) 열을 효율적으로 인덱싱하도록 설계되었습니다. 인덱스는 데이터를 검사하지 않고도 인덱스를 기반으로 쿼리 부분을 평가할 수 있는 세분성 수준을 유지합니다.
병합을 통한 익스텐트 연속 백그라운드 최적화는 압축 및 인덱싱을 개선하여 효율적인 스토리지 및 낮은 쿼리 대기 시간을 보장합니다. 익스텐트 크기가 특정 크기에 도달하면 인덱스만 병합되어 효율성을 저하하지 않고 쿼리 성능을 향상시킵니다.
익스텐트 및 인덱스 병합에 대한 자세한 내용은 병합 정책을 참조하세요.
행 저장소
Azure Data Explorer는 행 저장소라는 중간 스토리지 솔루션을 제공합니다. 행 저장소를 사용하면 작은 부분의 데이터를 효율적으로 섭취할 수 있으며 이 데이터를 쿼리에 즉시 사용할 수 있습니다. 클러스터에서 스트리밍 수집을 사용하도록 설정하면 데이터가 처음에 행 저장소로 수집된 다음 열 저장소 익스텐트로 이동됩니다.
자세한 내용은 Batching 및 스트리밍 수집을 참조 하세요.
열 압축
Azure Data Explorer는 데이터를 압축된 상태로 유지 관리하여 데이터를 저장하고 처리하는 데 필요한 메모리 양을 줄입니다. 이 동작으로 인해 쿼리 성능이 빨라지고 시스템 리소스를 보다 효율적으로 사용할 수 있습니다.
Azure Data Explorer는 자유 텍스트 또는 반구조화된 데이터 시나리오에서 높은 CPU 비용으로 인해 데이터를 정렬하여 압축을 향상시키는 수직 압축을 방지합니다. 대신 주요 쿼리 패턴이 있는 시나리오에 대해 기본 설정 데이터 정렬 순서를 지정할 수 있습니다. 이 절차는 쿼리에 대한 빠른 데이터 가용성의 우선 순위를 지정합니다.
데이터 정렬 순서 지정에 대한 자세한 내용은 행 순서 정책을 참조하세요.
분산 데이터 쿼리
Azure Data Explorer는 대규모 비정형 데이터 집합에서 빠른 임시 분석을 위한 분산 데이터 쿼리 기술을 사용합니다. 이 기술의 주요 기능은 다음과 같습니다.
- 쿼리에서 생성된 임시 데이터는 집계된 RAM에 저장됩니다.
- 관련 익스텐트를 쿼리 계획에 표시하여 스냅샷 격리를 제공합니다.
- 빠르고 효율적인 쿼리는 짧은 기본 시간 제한으로 우선 순위가 지정됩니다.
- 클러스터 간 데이터 교환을 최소화하는 클러스터 간 쿼리에 대한 기본 지원
- 쿼리는 모든 익스텐트에서 데이터 통계를 사용하여 매우 효율적인 머신 코드로 Just-In-Time 컴파일되고 열 인코딩 세부 사항에 맞게 조정됩니다.
참고 항목
Azure Data Explorer는 Azure Data Explorer용으로 사용자 지정 빌드된 KQL(Kusto 쿼리 언어)과 함께 작동하도록 설계되었습니다. 또한 T-SQL이 지원됩니다.