Compartilhar via


Use o MapReduce com o Apache Hadoop no HDInsight com SSH

Saiba como enviar trabalhos MapReduce de uma conexão SSH (Secure Shell) para o HDInsight.

Observação

Se você já estiver familiarizado com o uso de servidores Apache Hadoop baseados em Linux, mas for novo no HDInsight, consulte dicas do HDInsight baseadas em Linux.

Pré-requisitos

Um cluster do Apache Hadoop no HDInsight. Confira Criar clusters Apache Hadoop usando o portal do Azure.

Usar comandos Hadoop

  1. Use o comando ssh para se conectar ao cluster. Edite o comando abaixo substituindo CLUSTERNAME pelo nome do cluster e, em seguida, insira o comando:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Uma vez conectado ao cluster HDInsight, use o comando a seguir para iniciar um trabalho MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Esse comando inicia a classe wordcount, que está contida no arquivo hadoop-mapreduce-examples.jar. Ele usa o documento /example/data/gutenberg/davinci.txt como entrada e a saída é armazenada em /example/data/WordCountOutput.

    Observação

    Para saber mais sobre esse trabalho MapReduce e os dados de exemplo, confira Usar o MapReduce no Apache Hadoop no HDInsight.

    O trabalho emite detalhes conforme é processado, retornando informações semelhantes ao texto a seguir quando é concluído:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. Quando o trabalho for concluído, use o seguinte comando para listar os arquivos de saída:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Esse comando exibe dois arquivos, _SUCCESS e part-r-00000. O arquivo part-r-00000 contém a saída para esse trabalho.

    Observação

    Alguns trabalhos MapReduce podem dividir os resultados em vários arquivos part-r-##### . Nesse caso, use o sufixo ##### para indicar a ordem dos arquivos.

  4. Para exibir a saída, use o comando a seguir:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Esse comando exibirá uma lista de palavras contidas no arquivo wasb://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto a seguir é um exemplo dos dados contidos no arquivo:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Próximas etapas

Como você pode ver, os comandos Hadoop fornecem uma maneira fácil para executar trabalhos MapReduce em um cluster HDInsight e para então exibir a saída do trabalho. Para obter informações sobre outros modos possíveis de trabalhar com Hadoop no HDInsight: