HDInsight を使ってみる
このポストは、3 月 20 日に投稿された Getting Started with HDInsight の翻訳です。
編集メモ : 今回は、Windows Azure HDInsight チームの Shayne Burgess からの投稿を紹介します。
昨日、Windows での HDInsight サービスの重要なプレビュー版がリリースされました。今回の記事は、シリーズ (全 5 回) の第 2 回として、HDInsight サービスに加えられた新たな更新の概要を説明します。
HDInsight は、Windows Azure 上で稼働する Hadoop クラスターの展開、管理、使用に必要なものをすべて提供します。
Windows Azure アカウントがある場合には、HDInsight Preview へのアクセスを要求します。その後、Windows Azure 管理ポータルで HDInsight クラスターを作成できます。
ポータルにログインし、左下隅の [New] ボタンをクリックして、表示されるメニューから HDInsight を選択します。クラスターの名前、そのクラスターにログインするためのパスワード、必要なクラスターのサイズを指定します。クラスターのサイズによってクラスターの料金が決まるので、クラスター サイズは慎重に選択してください。
クラスターを作成するにはストレージ アカウントが必要です。現在のパブリック プレビューでは、ストレージ アカウントを East US 地域に置く必要があります。クラスターに関連付けた Azure ストレージ アカウントが、HDInsight で分析するデータの格納場所となります。
HDInsight クラスター
クラスターの作成は、HDInsight クラスターの形成に必要な複数の仮想マシン (VM) の作成と構成を行うため、数分かかります。HDInsight クラスターの一部としてインストールされる Hadoop コンポーネントは、こちら (英語) で説明されています。クラスターが作成されたら、ダッシュボード ビューからそのクラスターの [quick glance (概要)] 画面を表示して情報を確認できます。この概要画面ではクラスターの基本的な情報が表示されるだけでなく、クラスターに簡単に接続する方法も提供されます。
クラスターのメインのダッシュボードを開くには、 [Manage] ボタンをクリックします。クラスターを作成したときに指定したユーザー名とパスワードを使用してクラスターにログインします (クイック作成オプションを使用した場合、既定のユーザー名は admin です)。
クラスターのダッシュボード ページが開きます。このページにはクラスターの情報を提供する多数のタイルが表示されます。これらを使用してさまざまな作業を行うことができます。 [Create Job] タイルからは、MapReduce (英語) ジョブを JAR ファイルとして発行するために使用できる MapReduce ジョブ発行フォームが開かれます。 [Interactive Console] タイルからは、Javascript および Hive (英語) クエリをクラスターに対して直接実行できるコンソールが開かれます。
サンプルを実行する
クラスターのメインのポータル ページには [Samples] タイルもあります。これを使って Hadoop の基本的な使い方を学習することができます。
サンプルは、それぞれ HDInsight を使用する際の異なるシナリオを説明しています。これらのサンプルを見ることで、HDInsight で何ができるのかを大まかに知ることができます。サンプルでは、Hive クエリの実行方法、SQOOP コネクタの設定方法などが紹介されています。
たとえば、WordCount というサンプルは、特定のテキスト ファイル内で単語の登場回数を数える MapReduce ジョブの実行方法を説明しています。すべてのサンプルに [Deploy to your cluster] ボタンがあり、これを使うことによりサンプルの MapReduce ジョブをクラスターで実行できます。
対話型コンソールで出力を確認する
WordCount サンプルを実行し、グーテンベルグ プロジェクト電子書籍のレオナルド・ダ・ヴィンチ Notebooks 内で単語の登場回数を数える MapReduce ジョブを開始します。ジョブが完了したら、 [Interactive] コンソールを使用して、BLOB ストレージ アカウントに保管されている出力を表示します。
ワード カウントを表示するには、コンソール プロンプトにコマンド「fs.read("asv:///DaVinciAllTopWords")」を入力します。多数の単語を含むリストや合計数を見るには、バックアップをスクロールします。
詳細情報
HDInsight についての詳しい情報は、入門ページ (英語) を参照してください。
HDInsight が皆さまにとって価値ある新サービスとなることを期待しています。フィードバック (英語) もお待ちしております。
このシリーズ (全 5 回) では次回、HDInsight と Azure ストレージについて説明します。