HDInsight 클러스터 만들기

10분

HDInsight 클러스터를 만드는 방법은 간편한 사용자 인터페이스를 위해 Azure Portal을 사용하는 방법부터 자동화된 배포에 도움이 될 수 있는 스크립팅된 설정까지 다양합니다. 다음 표는 HDInsight 클러스터를 설정하기 위해 사용할 수 있는 다양한 방법을 보여 줍니다.

다음을 사용하여 만든 클러스터	웹 브라우저	명령줄	REST API	SDK
Azure Portal	✔
Azure Data Factory	✔	✔	✔	✔
Azure CLI		✔
Azure PowerShell		✔
cURL		✔	✔
.NET SDK				✔
Azure Resource Manager 템플릿		✔

모든 HDInsight 설정에는 다음을 비롯한 기본 정보가 필요합니다.

기본 사항 탭

프로젝트 세부 정보

HDInsight 요금이 청구되고 HDInsight를 관리할 Azure 구독을 정의합니다.

리소스 그룹 이름

리소스 그룹은 일반적으로 동일한 애플리케이션 또는 애플리케이션 수명 주기에 관련된 Azure 기술 및 서비스를 논리적으로 그룹화한 것입니다. 동일한 리소스 그룹의 서비스를 그룹화하면 관리 유지 관리가 쉬워집니다.

Azure Portal의 HDInsight 클러스터 만들기 화면에 있는 기본 탭의 스크린샷

클러스터 세부 정보

클러스터 이름

HDInsight 클러스터 이름에는 다음 제한 사항이 있습니다.

허용되는 문자: a-z, 0-9, A-Z
최대 길이: 59
예약된 이름: apps
클러스터 명명 범위는 모든 구독에서 모든 Azure에 해당합니다. 따라서 클러스터 이름은 전 세계에서 고유해야 합니다.
처음 6자는 VNET 내에서 고유해야 합니다.

위치

클러스터 유형이 저장되는 위치를 지정합니다. 위치가 정의되지 않으면 클러스터는 기본 스토리지와 동일한 위치에 함께 배치됩니다. 이 위치는 대기 시간을 줄이기 위해 최대한 사용자와 가까워야 합니다.

클러스터 유형

리소스 클러스터에서 프로비저닝된 기술 스택을 정의합니다. 보유하고 있는 데이터 형식 및 시나리오에 필요한 종류 처리를 기준으로 클러스터 유형을 선택합니다. 사용 가능한 클러스터 유형은 다음 표에 나와 있습니다.  

클러스터 유형	설명
Apache Hadoop	HDFS 및 간단한 MapReduce 프로그래밍 모델을 사용하여 일괄 처리 데이터를 처리하고 분석하는 프레임워크입니다.
Apache Spark	메모리 내 처리를 지원하여 빅 데이터 분석 애플리케이션의 성능을 향상하는 오픈 소스 병렬 처리 프레임워크입니다.
HBase는	비정형 및 반정형 대량 데이터(잠재적으로 수십억 개의 행과 수십억 개의 열로 구성됨)에 관해 임의 액세스 및 강력한 일관성을 제공하는 Hadoop 기반의 NoSQL 데이터베이스입니다.
Apache Interactive Query	더 빠른 대화형 Hive 쿼리를 위한 메모리 내 캐싱입니다.
Apache Kafka	스트리밍 데이터 파이프라인 및 애플리케이션을 빌드하는 데 사용되는 오픈 소스 플랫폼입니다. 또한 Kafka는 데이터 스트림을 게시하고 구독할 수 있는 메시지 큐 기능을 제공합니다.

버전

이 클러스터에 대한 HDInsight 버전을 정의합니다. HDInsight 4.0은 최신 버전이며 클러스터에 프로비저닝된 가장 최근 프레임워크를 포함합니다.

클러스터 자격 증명

HDInsight 클러스터를 사용하면 클러스터 생성 중에 두 개의 사용자 계정을 구성할 수 있습니다.

클러스터 로그인 및 암호

기본 사용자 이름은 admin입니다. Azure Portal에서 기본 구성을 사용합니다. 경우에 따라 “클러스터 사용자”라고도 합니다.

SSH 사용자 이름 및 암호

SSH를 통해 클러스터에 연결하는 데 사용됩니다.

참고

엔터프라이즈 보안 패키지를 사용하면 Active Directory 및 Apache Ranger와 HDInsight를 통합할 수 있습니다. Enterprise Security Package를 사용하여 여러 사용자를 만들 수 있습니다.

스토리지 탭

HDInsight 클러스터는 스토리지 화면에 표시된 대로 다음 스토리지 옵션을 사용할 수 있습니다.

Azure Data Lake Storage Gen2
Azure Data Lake Storage Gen1
Azure Storage 범용 v2
Azure Storage 범용 v1
Azure Storage 블록 Blob(보조 스토리지로만 지원됨)

스토리지 화면에서는 기본 스토리지 계정 및 기본 컨테이너를 정의할 수 있습니다. 추가 Azure Storage를 클러스터에 연결할 수도 있습니다. Metastore 설정을 사용하면 클러스터가 삭제된 후 Hive 테이블을 저장할 외부 SQL 데이터베이스를 정의하고 외부 저장소에 메타데이터를 저장하여 Oozie 성능을 개선할 수 있습니다.

Azure Portal의 HDInsight 클러스터 만들기 화면에 있는 스토리지 탭의 스크린샷

보안 및 네트워킹

Hadoop, Spark, HBase, Kafaka 및 Interactive Query 클러스터 유형의 경우 Enterprise Security Package를 사용하도록 선택할 수 있습니다. 이 패키지는 Apache Ranger를 사용하고 Microsoft Entra ID와 통합하여 보다 안전한 클러스터를 설정하는 옵션을 제공합니다.

Azure Portal의 HDInsight 클러스터 만들기 화면에 있는 보안 및 네트워킹 탭의 스크린샷

또한 VNet 내에 HDInsight 클러스터를 배포하는 것이 좋으며 이 화면에서 가상 네트워킹을 정의하고 설정할 수 있습니다. 사용자 솔루션에 여러 유형의 HDInsight 클러스터에 분산되어 있는 기술이 필요한 경우, Azure 가상 네트워크는 필요한 클러스터 유형을 연결할 수 있습니다. 이 구성은 클러스터를 허용하며, 배포하는 임의의 코드가 서로 직접 통신하도록 허용합니다.

구성 및 가격 책정

이 페이지에서는 클러스터의 크기와 성능을 구성하고 예상 비용 정보를 볼 수 있습니다. 이 화면에서 헤드(마스터) 노드 및 작업자 노드에 사용될 가상 머신을 정의할 수 있습니다.

Azure Portal의 HDInsight 클러스터 만들기 화면에 있는 구성 및 가격 책정 탭의 스크린샷