Criar um cluster com o Data Lake Storage Gen2 usando a CLI do Azure
Para criar um cluster HDInsight que use o Data Lake Storage Gen2 para armazenamento, siga estas etapas.
Pré-requisitos
- Se você não estiver familiarizado com o Azure Data Lake Storage Gen2, confira a seção de visão geral.
- Se ainda não tem uma conta do Azure, inscreva-se numa conta gratuita antes de continuar.
- Para executar os exemplos de script da CLI, você tem três opções:
- Use o Azure Cloud Shell no portal do Azure (consulte a próxima seção).
- Use o Azure Cloud Shell incorporado por meio do botão "Experimente", localizado no canto superior direito de cada bloco de código.
- Instale a versão mais recente da CLI do Azure (2.0.13 ou posterior) se preferir usar um console de CLI local. Entre no Azure usando
az login
o , usando uma conta associada à assinatura do Azure sob a qual você gostaria de implantar a identidade gerenciada atribuída pelo usuário. CLI do Azure.
Azure Cloud Shell
O Azure aloja o Azure Cloud Shell, um ambiente de shell interativo que pode utilizar através do seu browser. Pode utilizar o Bash ou o PowerShell com o Cloud Shell para trabalhar com os serviços do Azure. Você pode usar os comandos pré-instalados do Cloud Shell para executar o código neste artigo, sem precisar instalar nada em seu ambiente local.
Para iniciar o Azure Cloud Shell:
Opção | Exemplo/Ligação |
---|---|
Selecione Experimentar no canto superior direito de um código ou bloco de comandos. Selecionar Experimentar não copia automaticamente o código ou comando para o Cloud Shell. | |
Aceda a https://shell.azure.com ou selecione o botão Iniciar Cloud Shell para abrir o Cloud Shell no browser. | |
Selecione o botão Cloud Shell na barra de menus, na parte direita do portal do Azure. |
Para usar o Azure Cloud Shell:
Inicie o Cloud Shell.
Selecione o botão Copiar em um bloco de código (ou bloco de comando) para copiar o código ou comando.
Cole o código ou comando na sessão do Cloud Shell selecionando Ctrl+Shift+V no Windows e Linux ou selecionando Cmd+Shift+V no macOS.
Selecione Enter para executar o código ou comando.
Aviso
A cobrança de clusters HDInsight é rateada por minuto, quer você os use ou não. Certifique-se de excluir o cluster depois de terminar de usá-lo. Veja como excluir um cluster HDInsight.
Você pode baixar um arquivo de modelo de exemplo e baixar um arquivo de parâmetros de exemplo. Antes de usar o modelo e o trecho de código da CLI do Azure abaixo, substitua os seguintes espaços reservados por seus valores corretos:
Marcador de Posição | Description |
---|---|
<SUBSCRIPTION_ID> |
A ID da sua subscrição do Azure |
<RESOURCEGROUPNAME> |
O grupo de recursos onde você deseja que o novo cluster e a conta de armazenamento sejam criados. |
<MANAGEDIDENTITYNAME> |
O nome da identidade gerenciada que receberá permissões em sua conta de armazenamento com o Azure Data Lake Storage Gen2. |
<STORAGEACCOUNTNAME> |
A nova conta de armazenamento com o Azure Data Lake Storage Gen2 que será criada. |
<FILESYSTEMNAME> |
O nome do sistema de arquivos que esse cluster deve usar na conta de armazenamento. |
<CLUSTERNAME> |
O nome do cluster HDInsight. |
<PASSWORD> |
Sua senha escolhida para entrar no cluster usando SSH e o painel Ambari. |
O trecho de código abaixo executa as seguintes etapas iniciais:
- Inicia sessão na sua conta do Azure.
- Define a assinatura ativa onde as operações criadas serão feitas.
- Cria um novo grupo de recursos para as novas atividades de implantação.
- Cria uma identidade gerenciada atribuída pelo usuário.
- Adiciona uma extensão à CLI do Azure para usar recursos para o Data Lake Storage Gen2.
- Cria uma nova conta de armazenamento com o Data Lake Storage Gen2 usando o
--hierarchical-namespace true
sinalizador.
az login
az account set --subscription <SUBSCRIPTION_ID>
# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus
# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>
az extension add --name storage-preview
az storage account create --name <STORAGEACCOUNTNAME> \
--resource-group <RESOURCEGROUPNAME> \
--location eastus --sku Standard_LRS \
--kind StorageV2 --hierarchical-namespace true
Em seguida, inicie sessão no portal. Adicione a nova identidade gerenciada atribuída pelo usuário à função Proprietário de Dados do Blob de Armazenamento na conta de armazenamento. Esta etapa é descrita na etapa 3 em Usando o portal do Azure.
Importante
Certifique-se de que sua conta de armazenamento tenha a identidade atribuída pelo usuário com permissões de função de Proprietário de Dados de Blob de Armazenamento, caso contrário, a criação do cluster falhará.
az deployment group create --name HDInsightADLSGen2Deployment \
--resource-group <RESOURCEGROUPNAME> \
--template-file hdinsight-adls-gen2-template.json \
--parameters parameters.json
Clean up resources (Limpar recursos)
Depois de concluir o artigo, pode achar conveniente eliminar o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso.
Insira todos ou alguns dos seguintes comandos para remover recursos:
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Resolver problemas
Caso se depare com problemas com a criação de clusters do HDInsight, veja aceder aos requisitos de controlo.
Próximos passos
Você criou com êxito um cluster HDInsight. Agora saiba como trabalhar com seu cluster.
Clusters do Apache Spark
- Personalizar clusters HDInsight baseados em Linux usando ações de script
- Criar uma aplicação autónoma com o Scala
- Executar trabalhos remotamente em um cluster Apache Spark usando o Apache Livy
- Apache Spark com BI: execute análise de dados interativa usando o Spark no HDInsight com ferramentas de BI
- Apache Spark com Machine Learning: use o Spark no HDInsight para prever resultados de inspeção de alimentos