Uso de MapReduce con Apache Hadoop en HDInsight con SSH
Aprenda a enviar trabajos de MapReduce desde una conexión Secure Shell (SSH) a HDInsight.
Nota
Si ya está familiarizado con el uso de servidores de Apache Hadoop basados en Linux, pero no conoce HDInsight, consulte Información sobre el uso de HDInsight en Linux.
Requisitos previos
Un clúster de Apache Hadoop en HDInsight. Consulte Creación de clústeres de Apache Hadoop mediante Azure Portal.
Uso de comandos de Hadoop
Use el comando SSH para conectarse al clúster. Modifique el comando siguiente: reemplace CLUSTERNAME por el nombre del clúster y, luego, escriba el comando:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Después de conectarse al clúster de HDInsight, use el siguiente comando para iniciar un trabajo de MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Este comando inicia la clase
wordcount
, que está contenido en el archivohadoop-mapreduce-examples.jar
. Emplea como entrada el documento/example/data/gutenberg/davinci.txt
y la salida se almacena en/example/data/WordCountOutput
.Nota
Para obtener más información sobre este trabajo de MapReduce y los datos de ejemplo, vea Uso de MapReduce en Apache Hadoop en HDInsight.
El trabajo emite detalles a medida que se procesa y devuelve información similar al siguiente texto cuando finaliza el trabajo:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Una vez completado el trabajo, use el siguiente comando para enumerar los archivos de salida:
hdfs dfs -ls /example/data/WordCountOutput
Este comando muestra dos archivos,
_SUCCESS
ypart-r-00000
. El archivopart-r-00000
contiene la salida de este trabajo.Nota
Algunos trabajos de MapReduce pueden dividir los resultados entre varios archivos part-r-#### . Si es así, utilice el sufijo #### para indicar el orden de los archivos.
Para ver la salida, use el comando siguiente:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Este comando muestra una lista de las palabras contenidas en el archivo wasb://example/data/gutenberg/davinci.txt, junto con el número de veces que aparecía cada palabra. El texto siguiente es un ejemplo de los datos contenidos en el archivo:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Pasos siguientes
Como se puede ver, los comando Hadoop proporcionan una manera fácil de ejecutar trabajos de MapReduce en un clúster de HDInsight y, a continuación, ver la salida del trabajo. Para obtener información sobre otras maneras de trabajar con Hadoop en HDInsight: