HDInsight 대화형 쿼리

7분

대화형 쿼리는 일반적으로 데이터가 테이블 형식이고 SQL 구문을 통해 빠르게 질문하고 대화형 응답을 받으려는 콜드 경로 시나리오에서 구현됩니다. 다음 다이어그램에서는 모든 HDInsight 콜드 경로 및 실행 부하 과다 경로 솔루션의 솔루션 아키텍처를 보여 주며 서비스 레이어의 Hive LLAP를 통해 대화형 쿼리를 처리하는 방법을 설명합니다. Hive를 통해 데이터를 수집할 수 있고, Hive LLAP를 통해 대화형 쿼리를 처리하고, Power BI 같은 다운스트림 애플리케이션에 출력을 제공할 수 있습니다.

Interactive Query 솔루션 아키텍처

Interactive Query 아키텍처

이제 Interactive Query 아키텍처를 자세히 살펴보겠습니다.

Interactive Query 사용자는 Data Analytics Studio, Zeppelin Notebook 및 Visual Studio Code와 같이 비즈니스 데이터에서 쿼리를 실행할 클라이언트를 다양한 ODBC 또는 JDBC 클라이언트 중에서 선택할 수 있습니다. 클라이언트에서 HiveQL 쿼리를 제출한 후 쿼리는 쿼리 계획, 최적화 및 보안 조정을 처리할 수 있는 HiveServer에 도착합니다. Hive는 클러스터의 분산된 노드에 걸쳐 분석 작업을 분할합니다. 쿼리는 하위 작업으로 분할되어 각 하위 작업을 처리하는 노드로 전송되며, 이 하위 작업은 추가로 분할되고 각 작업은 기본 비즈니스 데이터 스토리지 레이어에서 데이터를 읽습니다. 스토리지에서 검색된 데이터를 저장하고 모든 노드에서 데이터를 공유하는 공유된 메모리 내 캐시뿐만 아니라 시작 시간을 피하는 “always on” LLAP 디먼을 사용하므로 아키텍처가 최적화되어 있습니다.

Hive 아키텍처

Interactive Query 클러스터에서 사용하는 SSD(반도체 드라이브)는 RAM과 SSD를 캐시에서 사용되는 큰 메모리 풀로 결합합니다. 이 리소스 조합을 사용하는 경우 일반적인 서버 프로필은 4배 더 많은 데이터를 캐시할 수 있으므로 더 큰 데이터 세트를 처리하고 더 많은 사용자를 지원할 수 있습니다. Interactive Query 캐시는 원격 저장소(Azure Storage)의 기본 데이터 변경 내용을 인식하므로 기본 데이터가 변경되고 사용자가 쿼리를 실행하면 추가 사용자 단계 없이도 업데이트된 데이터가 메모리에 로드됩니다.

HDInsight 대화형 쿼리

Interactive Query 아키텍처

피드백