Använda MapReduce med Apache Hadoop i HDInsight med SSH
Lär dig hur du skickar MapReduce-jobb från en SSH-anslutning (Secure Shell) till HDInsight.
Anteckning
Om du redan är bekant med att använda Linux-baserade Apache Hadoop-servrar, men du är nybörjare på HDInsight, kan du läsa Linux-baserade HDInsight-tips.
Förutsättningar
Ett Apache Hadoop-kluster i HDInsight. Se Skapa Apache Hadoop-kluster med hjälp av Azure Portal.
Använda Hadoop-kommandon
Använd ssh-kommandot för att ansluta till klustret. Redigera kommandot nedan genom att ersätta CLUSTERNAME med namnet på klustret och ange sedan kommandot:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
När du är ansluten till HDInsight-klustret använder du följande kommando för att starta ett MapReduce-jobb:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Det här kommandot startar
wordcount
klassen, som finns ihadoop-mapreduce-examples.jar
filen. Dokumentet används/example/data/gutenberg/davinci.txt
som indata och utdata lagras på/example/data/WordCountOutput
.Anteckning
Mer information om det här MapReduce-jobbet och exempeldata finns i Använda MapReduce i Apache Hadoop på HDInsight.
Jobbet genererar information när det bearbetas och returnerar information som liknar följande text när jobbet slutförs:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
När jobbet är klart använder du följande kommando för att visa utdatafilerna:
hdfs dfs -ls /example/data/WordCountOutput
Det här kommandot visar två filer och
_SUCCESS
part-r-00000
. Filenpart-r-00000
innehåller utdata för det här jobbet.Anteckning
Vissa MapReduce-jobb kan dela upp resultaten mellan flera del-r-######- filer. I så fall använder du suffixet ##### för att ange ordningen på filerna.
Om du vill visa utdata använder du följande kommando:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Det här kommandot visar en lista över de ord som finns i filen wasbs://example/data/gutenberg/davinci.txt och antalet gånger varje ord har inträffat. Följande text är ett exempel på de data som finns i filen:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Nästa steg
Som du ser är Hadoop-kommandon ett enkelt sätt att köra MapReduce-jobb i ett HDInsight-kluster och sedan visa jobbutdata. Information om andra sätt att arbeta med Hadoop på HDInsight: