Guia de início rápido: criar cluster Apache Spark no Azure HDInsight usando o portal do Azure
Neste início rápido, você usa o portal do Azure para criar um cluster Apache Spark no Azure HDInsight. Em seguida, crie um Jupyter Notebook e use-o para executar consultas do Spark SQL em tabelas do Apache Hive. O Azure HDInsight é um serviço de análise gerido, de espectro completo e de código aberto para empresas. A estrutura Apache Spark para HDInsight permite análise de dados rápida e computação em cluster usando processamento na memória. O Jupyter Notebook permite que você interaja com seus dados, combine código com texto de marcação e faça visualizações simples.
Para obter explicações detalhadas sobre as configurações disponíveis, consulte Configurar clusters no HDInsight. Para obter mais informações sobre o uso do portal para criar clusters, consulte Criar clusters no portal.
Se você estiver usando vários clusters juntos, convém criar uma rede virtual; se você estiver usando um cluster do Spark, talvez também queira usar o Hive Warehouse Connector. Para obter mais informações, consulte Planejar uma rede virtual para o Azure HDInsight e Integrar o Apache Spark e o Apache Hive com o Hive Warehouse Connector.
Importante
A faturação dos clusters do HDInsight é rateada ao minuto, quer esteja a utilizá-los ou não. Confirme que elimina o cluster depois de o utilizar. Para obter mais informações, consulte a secção Limpar recursos deste artigo.
Pré-requisitos
Uma conta do Azure com uma subscrição ativa. Crie uma conta gratuitamente.
Criar um cluster Apache Spark no HDInsight
Você usa o portal do Azure para criar um cluster HDInsight que usa Blobs de Armazenamento do Azure como o armazenamento de cluster. Para obter mais informações sobre como utilizar o Armazenamento do Data Lake Ger2, veja Início rápido: configurar clusters no HDInsight.
Inicie sessão no portal do Azure.
No menu superior, selecione + Criar um recurso.
Selecione Analytics>Azure HDInsight para ir para a página Criar cluster HDInsight.
Na guia Noções básicas, forneça as seguintes informações:
Property Descrição Subscrição Na lista suspensa, selecione a assinatura do Azure usada para o cluster. Grupo de recursos Na lista pendente, selecione o grupo de recursos existente ou selecione Criar novo. Nome do cluster Introduza um nome globalmente exclusivo. País/Região Na lista suspensa, selecione uma região onde o cluster é criado. Availability zone Opcional - especifique uma zona de disponibilidade na qual implantar o cluster Tipo de cluster Selecione o tipo de cluster para abrir uma lista. Na lista, selecione Faísca. Versão do cluster Este campo será preenchido automaticamente com a versão padrão assim que o tipo de cluster for selecionado. Nome de utilizador de início de sessão do cluster Introduza o nome de utilizador de início de sessão do cluster. O nome padrão é admin. Use essa conta para fazer login no Jupyter Notebook mais tarde no início rápido. Palavra-passe de início de sessão do cluster Introduza a palavra-passe de início de sessão do cluster. Nome de utilizador de Secure Shell (SSH) Introduza o nome de utilizador SSH. O nome de utilizador SSH utilizado neste guia de início rápido é sshuser. Por predefinição, esta conta tem a mesma palavra-passe que a conta Nome de utilizador de início de sessão do cluster. Selecione Next: Storage >> para continuar para a página Armazenamento .
Em Armazenamento, forneça os seguintes valores:
Property Description Tipo de armazenamento primário Use o valor padrão Armazenamento do Azure. Método de seleção Use o valor padrão Selecionar da lista. Conta de armazenamento primária Use o valor preenchido automaticamente. Contentor Use o valor preenchido automaticamente. Selecione Rever + criar para continuar.
Em Rever + criar, selecione Criar. A criação do cluster demora cerca de 20 minutos. Tem de criar o cluster antes de poder avançar para a sessão seguinte.
Se você tiver um problema com a criação de clusters HDInsight, pode ser que você não tenha as permissões certas para fazê-lo. Para obter mais informações, veja Access control requirements (Requisitos do controlo de acesso).
Criar um Bloco de Notas do Jupyter Notebook
O Jupyter Notebook é um ambiente de bloco de notas interativo que suporta várias linguagens de programação. O bloco de notas permite-lhe interagir com os seus dados, combinar código com texto markdown e realizar visualizações simples.
Em um navegador da Web, navegue até
https://CLUSTERNAME.azurehdinsight.net/jupyter
, ondeCLUSTERNAME
é o nome do cluster. Se lhe for pedido, introduza as credenciais de início de sessão do cluster.Selecione New (Novo)>PySpark para criar um bloco de notas.
É criado e aberto um novo bloco de notas com o nome Untitled (Untitled.pynb).
Executar instruções SQL do Apache Spark
SQL (Structured Query Language) é a linguagem mais comum e mais utilizada para consultar e definir dados. O Spark SQL funciona como uma extensão do Apache Spark para o processamento de dados estruturados e utiliza a sintaxe familiar do SQL Server.
Verifique se o kernel está pronto. O kernel está pronto quando vir um círculo hollow junto ao nome do kernel no bloco de notas. O círculo sólido indica que o kernel está ocupado.
Quando inicia o bloco de notas pela primeira vez, o kernel efetua algumas tarefas em segundo plano. Aguarde que o kernel esteja preparado.
Cole o seguinte código numa célula vazia e, em seguida, prima SHIFT + ENTER para o executar. O comando lista as tabelas do Hive no cluster:
%%sql SHOW TABLES
Ao usar um Jupyter Notebook com o cluster HDInsight, você obtém uma predefinição
sqlContext
que pode ser usada para executar consultas do Hive usando o Spark SQL.%%sql
indica ao Bloco de Notas do Jupyter que utilize osqlContext
predefinido para executar a consulta do Hive. A consulta devolve as primeiras dez linhas de uma tabela do Hive (hivesampletable) que vem em todos os clusters do HDInsight por predefinição. São necessários cerca de 30 segundos para receber os resultados. O resultado tem o seguinte aspeto:é início rápido." border="true":::
Sempre que executar uma consulta no Jupyter, o título da janela do browser apresenta o estado (Ocupado) juntamente com o título do bloco de notas. Também vê um círculo sólido junto ao texto do PySpark no canto superior direito.
Execute outra consulta para ver os dados no
hivesampletable
.%%sql SELECT * FROM hivesampletable LIMIT 10
O ecrã deve atualizar-se e mostrar o resultado da consulta.
Insight" border="true":::
No menu File (Ficheiro) do bloco de notas, selecione Close and Halt (Fechar e Parar). Encerrar o bloco de notas liberta os recursos do cluster.
Clean up resources (Limpar recursos)
O HDInsight salva seus dados no Armazenamento do Azure ou no Armazenamento do Azure Data Lake, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso. Se tenciona trabalhar imediatamente no tutorial listado nos Passos seguintes, convém manter o cluster.
Regresse ao portal do Azure e selecione Eliminar.
sight cluster" border="true":::
Também pode selecionar o nome do grupo de recursos para abrir a página do grupo de recursos e, em seguida, selecionar Eliminar grupo de recursos. Ao excluir o grupo de recursos, você exclui o cluster HDInsight e a conta de armazenamento padrão.
Próximos passos
Neste início rápido, você aprendeu como criar um cluster Apache Spark no HDInsight e executar uma consulta básica do Spark SQL. Avance para o próximo tutorial para saber como usar um cluster HDInsight para executar consultas interativas em dados de exemplo.