Azure CLI를 사용하여 Data Lake Storage Gen2 클러스터 생성
스토리지에 Data Lake Storage Gen2를 사용하는 HDInsight 클러스터를 만들려면 다음 단계를 수행합니다.
필수 조건
- Azure Data Lake Storage Gen2에 대해 잘 모르겠으면 개요 섹션을 확인하세요.
- 아직 Azure 계정이 없으면 계속하기 전에 평가판 계정에 등록해야 합니다.
- CLI 스크립트 예제는 다음의 세 가지 옵션 중 하나로 실행할 수 있습니다.
- Azure Portal에서 Azure Cloud Shell을 사용합니다(다음 섹션 참조).
- 각 코드 블록의 오른쪽 위에 있는 "사용해 보세요." 단추를 통해 포함된 Azure Cloud Shell을 사용합니다.
- 로컬 CLI 콘솔을 사용하려는 경우 Azure CLI의 최신 버전을 설치합니다(2.0.13 이상). 사용자 할당 관리 ID를 배포하려는 Azure 구독과 연결된 계정으로
az login
을 사용하여 Azure에 로그인합니다.
Azure Cloud Shell
Azure는 브라우저를 통해 사용할 수 있는 대화형 셸 환경인 Azure Cloud Shell을 호스트합니다. Cloud Shell에서 Bash 또는 PowerShell을 사용하여 Azure 서비스 작업을 수행할 수 있습니다. 로컬 환경에 아무 것도 설치할 필요 없이 Azure Cloud Shell의 미리 설치된 명령을 사용하여 이 문서의 코드를 실행할 수 있습니다.
Azure Cloud Shell을 시작하려면 다음을 수행합니다.
옵션 | 예제/링크 |
---|---|
코드 또는 명령 블록의 오른쪽 상단에서 시도를 선택합니다. 시도를 선택해도 코드 또는 명령이 Cloud Shell에 자동으로 복사되지 않습니다. | |
https://shell.azure.com으로 이동하거나 Cloud Shell 시작 단추를 선택하여 브라우저에서 Cloud Shell을 엽니다. | |
Azure Portal의 오른쪽 위에 있는 메뉴 모음에서 Cloud Shell 단추를 선택합니다. |
Azure Cloud Shell을 사용하려면:
Cloud Shell을 시작합니다.
코드 블록(또는 명령 블록)에서 복사 단추를 선택하여 코드 또는 명령을 복사합니다.
Windows 및 Linux에서 Ctrl+Shift+V를 선택하거나 macOS에서 Cmd+Shift+V를 선택하여 코드 또는 명령을 Cloud Shell 세션에 붙여넣습니다.
Enter를 선택하여 코드 또는 명령을 실행합니다.
Warning
HDInsight 클러스터에 대한 청구는 사용 여부에 관계없이 분 단위로 비례 배분됩니다. 클러스터는 사용한 후에 삭제해야 합니다. HDInsight 클러스터를 삭제하는 방법을 참조하세요.
샘플 템플릿 파일을 다운로드하고 샘플 매개 변수 파일을 다운로드할 수 있습니다. 아래 템플릿 및 Azure CLI 코드 조각을 사용하기 전에 다음 자리 표시자를 올바른 값으로 바꿉니다.
자리 표시자 | 설명 |
---|---|
<SUBSCRIPTION_ID> |
Azure 구독의 ID |
<RESOURCEGROUPNAME> |
새 클러스터 및 스토리지 계정을 만들 리소스 그룹입니다. |
<MANAGEDIDENTITYNAME> |
Azure Data Lake Storage Gen2를 사용하여 스토리지 계정에 대한 권한을 부여 받을 관리 ID의 이름입니다. |
<STORAGEACCOUNTNAME> |
생성될 Azure Data Lake Storage Gen2가 있는 새 스토리지 계정입니다. |
<FILESYSTEMNAME> |
스토리지 계정에서 이 클러스터가 사용해야 하는 파일 시스템의 이름입니다. |
<CLUSTERNAME> |
HDInsight 클러스터의 이름입니다. |
<PASSWORD> |
SSH 및 Ambari 대시보드를 사용하여 클러스터에 로그인하기 위해 선택한 암호입니다. |
아래 코드 조각은 다음과 같은 초기 단계를 수행합니다.
- Azure 계정에 로그인합니다.
- 만든 작업을 수행할 활성 구독을 설정합니다.
- 새 배포 활동에 대한 새 리소스 그룹을 만듭니다.
- 사용자 할당 관리 ID를 만듭니다.
- Data Lake Storage Gen2용 기능을 사용할 수 있도록 Azure CLI에 확장을 추가합니다.
--hierarchical-namespace true
플래그를 사용하여 Data Lake Storage Gen2를 사용하여 새 스토리지 계정을 만듭니다.
az login
az account set --subscription <SUBSCRIPTION_ID>
# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus
# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>
az extension add --name storage-preview
az storage account create --name <STORAGEACCOUNTNAME> \
--resource-group <RESOURCEGROUPNAME> \
--location eastus --sku Standard_LRS \
--kind StorageV2 --hierarchical-namespace true
다음으로, Portal에 로그인합니다. 스토리지 계정의 Storage Blob 데이터 소유자 역할에 새로운 사용자가 할당한 관리 ID를 추가합니다. 이 단계는 Azure Portal 사용 아래의 3단계에 설명되어 있습니다.
Important
스토리지 계정에 Storage Blob 데이터 소유자 역할 권한이 있는 사용자가 할당한 ID가 있는지 확인합니다. 그렇지 않으면 클러스터를 만들지 못합니다.
az deployment group create --name HDInsightADLSGen2Deployment \
--resource-group <RESOURCEGROUPNAME> \
--template-file hdinsight-adls-gen2-template.json \
--parameters parameters.json
리소스 정리
이 문서를 완료한 후에 클러스터를 삭제할 수 있습니다. HDInsight를 사용하면 데이터가 Azure Storage에 저장되기 때문에 클러스터를 사용하지 않을 때 안전하게 삭제할 수 있습니다. HDInsight 클러스터를 사용하지 않는 기간에도 요금이 청구됩니다. 클러스터에 대한 요금이 스토리지에 대한 요금보다 몇 배 더 많기 때문에, 클러스터를 사용하지 않을 때는 삭제하는 것이 경제적인 면에서 더 합리적입니다.
리소스를 제거하려면 다음 명령의 전체 또는 일부를 입력합니다.
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
문제 해결
HDInsight 클러스터를 만드는 동안 문제가 발생할 경우 액세스 제어 요구 사항을 참조하세요.
다음 단계
HDInsight 클러스터를 성공적으로 만들었습니다. 이제 클러스터를 사용하는 방법을 알아봅니다.
Apache Spark 클러스터
- 스크립트 동작을 사용하여 Linux 기반 HDInsight 클러스터 사용자 지정
- Scala를 사용하여 독립 실행형 애플리케이션 만들기
- Apache Livy를 사용하여 Apache Spark 클러스터에서 원격으로 작업 실행
- BI와 Apache Spark: BI 도구와 함께 HDInsight의 Spark를 사용하여 대화형 데이터 분석 수행
- Machine Learning과 Apache Spark: HDInsight의 Spark를 사용하여 식품 검사 결과 예측