Use o MapReduce com o Apache Hadoop no HDInsight com SSH
Saiba como enviar trabalhos MapReduce de uma conexão SSH (Secure Shell) para o HDInsight.
Observação
Se você já estiver familiarizado com o uso de servidores Apache Hadoop baseados em Linux, mas for novo no HDInsight, consulte dicas do HDInsight baseadas em Linux.
Pré-requisitos
Um cluster do Apache Hadoop no HDInsight. Confira Criar clusters Apache Hadoop usando o portal do Azure.
Usar comandos Hadoop
Use o comando ssh para se conectar ao cluster. Edite o comando abaixo substituindo CLUSTERNAME pelo nome do cluster e, em seguida, insira o comando:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Uma vez conectado ao cluster HDInsight, use o comando a seguir para iniciar um trabalho MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Esse comando inicia a classe
wordcount
, que está contida no arquivohadoop-mapreduce-examples.jar
. Ele usa o documento/example/data/gutenberg/davinci.txt
como entrada e a saída é armazenada em/example/data/WordCountOutput
.Observação
Para saber mais sobre esse trabalho MapReduce e os dados de exemplo, confira Usar o MapReduce no Apache Hadoop no HDInsight.
O trabalho emite detalhes conforme é processado, retornando informações semelhantes ao texto a seguir quando é concluído:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Quando o trabalho for concluído, use o seguinte comando para listar os arquivos de saída:
hdfs dfs -ls /example/data/WordCountOutput
Esse comando exibe dois arquivos,
_SUCCESS
epart-r-00000
. O arquivopart-r-00000
contém a saída para esse trabalho.Observação
Alguns trabalhos MapReduce podem dividir os resultados em vários arquivos part-r-##### . Nesse caso, use o sufixo ##### para indicar a ordem dos arquivos.
Para exibir a saída, use o comando a seguir:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Esse comando exibirá uma lista de palavras contidas no arquivo wasb://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto a seguir é um exemplo dos dados contidos no arquivo:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Próximas etapas
Como você pode ver, os comandos Hadoop fornecem uma maneira fácil para executar trabalhos MapReduce em um cluster HDInsight e para então exibir a saída do trabalho. Para obter informações sobre outros modos possíveis de trabalhar com Hadoop no HDInsight: