Použití MapReduce s Apache Hadoopem ve službě HDInsight s SSH
Zjistěte, jak odesílat úlohy MapReduce z připojení Secure Shell (SSH) do SLUŽBY HDInsight.
Poznámka
Pokud jste již obeznámeni s používáním serverů Apache Hadoop se systémem Linux, ale se službou HDInsight začínáte, přečtěte si téma Tipy pro HDInsight se systémem Linux.
Požadavky
Cluster Apache Hadoop ve službě HDInsight. Viz Vytváření clusterů Apache Hadoop pomocí Azure Portal.
Použití příkazů Hadoop
Pomocí příkazu ssh se připojte ke clusteru. Upravte následující příkaz tak, že clusterNAME nahradíte názvem vašeho clusteru a pak zadáte příkaz :
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Po připojení ke clusteru HDInsight spusťte pomocí následujícího příkazu úlohu MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Tento příkaz spustí
wordcount
třídu , která je obsažena vhadoop-mapreduce-examples.jar
souboru . Jako vstup použije/example/data/gutenberg/davinci.txt
dokument a výstup se uloží na/example/data/WordCountOutput
adrese .Poznámka
Další informace o této úloze MapReduce a ukázkových datech najdete v tématu Použití MapReduce v Apache Hadoopu ve službě HDInsight.
Úloha při zpracování generuje podrobnosti a po dokončení úlohy vrací informace podobné následujícímu textu:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Po dokončení úlohy pomocí následujícího příkazu zobrazte seznam výstupních souborů:
hdfs dfs -ls /example/data/WordCountOutput
Tento příkaz zobrazí dva soubory
_SUCCESS
apart-r-00000
. Souborpart-r-00000
obsahuje výstup pro tuto úlohu.Poznámka
Některé úlohy MapReduce můžou výsledky rozdělit do několika souborů part-r-##### #. Pokud ano, použijte příponu ##### k označení pořadí souborů.
K zobrazení výstupu použijte následující příkaz:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Tento příkaz zobrazí seznam slov obsažených v souboru wasbs://example/data/gutenberg/davinci.txt a počet výskytů jednotlivých slov. Následující text je příkladem dat obsažených v souboru:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Další kroky
Jak vidíte, příkazy Hadoop poskytují snadný způsob, jak spustit úlohy MapReduce v clusteru HDInsight a pak zobrazit výstup úlohy. Informace o dalších způsobech práce s Hadoopem ve službě HDInsight: