Korzystanie z technologii MapReduce z usługą Apache Hadoop w usłudze HDInsight przy użyciu protokołu SSH
Dowiedz się, jak przesyłać zadania usługi MapReduce z poziomu połączenia protokołu Secure Shell (SSH) z usługą HDInsight.
Uwaga
Jeśli znasz już serwery Apache Hadoop oparte na systemie Linux, ale jesteś nowym użytkownikiem usługi HDInsight, zobacz Porady dotyczące usługi HDInsight opartej na systemie Linux.
Wymagania wstępne
Klaster Apache Hadoop w usłudze HDInsight. Zobacz Tworzenie klastrów Apache Hadoop przy użyciu Azure Portal.
Korzystanie z poleceń usługi Hadoop
Użyj polecenia ssh , aby nawiązać połączenie z klastrem. Zmodyfikuj poniższe polecenie, zastępując ciąg CLUSTERNAME nazwą klastra, a następnie wprowadź polecenie:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Po nawiązaniu połączenia z klastrem usługi HDInsight użyj następującego polecenia, aby uruchomić zadanie MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
To polecenie uruchamia klasę
wordcount
zawartąhadoop-mapreduce-examples.jar
w pliku . Używa/example/data/gutenberg/davinci.txt
on dokumentu jako danych wejściowych, a dane wyjściowe są przechowywane w lokalizacji/example/data/WordCountOutput
.Uwaga
Aby uzyskać więcej informacji na temat tego zadania MapReduce i przykładowych danych, zobacz Use MapReduce in Apache Hadoop on HDInsight (Używanie usługi MapReduce w usłudze Apache Hadoop w usłudze HDInsight).
Zadanie emituje szczegóły podczas przetwarzania i zwraca informacje podobne do następującego tekstu po zakończeniu zadania:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Po zakończeniu zadania użyj następującego polecenia, aby wyświetlić listę plików wyjściowych:
hdfs dfs -ls /example/data/WordCountOutput
To polecenie wyświetla dwa pliki i
_SUCCESS
part-r-00000
. Plikpart-r-00000
zawiera dane wyjściowe dla tego zadania.Uwaga
Niektóre zadania MapReduce mogą dzielić wyniki między wiele plików part-r-######. Jeśli tak, użyj sufiksu ######, aby wskazać kolejność plików.
Aby wyświetlić dane wyjściowe, użyj następującego polecenia:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
To polecenie wyświetla listę wyrazów zawartych w pliku wasbs://example/data/gutenberg/davinci.txt oraz liczbę przypadków wystąpienia każdego wyrazu. Poniższy tekst jest przykładem danych zawartych w pliku:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Następne kroki
Jak widać, polecenia usługi Hadoop umożliwiają łatwe uruchamianie zadań MapReduce w klastrze usługi HDInsight, a następnie wyświetlanie danych wyjściowych zadania. Aby uzyskać informacje o innych sposobach pracy z usługą Hadoop w usłudze HDInsight: