Windows PC から HDInsight の Apache Hadoop エコシステムで作業する
HDInsight の Apache Hadoop エコシステムで作業するための Windows PC での開発および管理オプションについて説明します。
HDInsight は、Linux 上で開発されたオープンソース テクノロジである Apache Hadoop と Hadoop コンポーネントに基づいています。 HDInsight Version 3.4 以降では、クラスターを作成する OS として、Ubuntu Linux ディストリビューションを使用します。 ただし、HDInsight は、Windows クライアントまたは Windows 開発環境から操作することができます。
デプロイおよび管理タスクのための PowerShell の使用
Azure PowerShell は、HDInsight のデプロイおよび管理タスクを Windows から制御し自動化するために使用できるスクリプティング環境です。
PowerShell で実行できるタスクの例を次に示します。
Azure PowerShell のインストールと構成に関するページの手順に従い、最新バージョンを入手してください。
ブラウザーで実行できるユーティリティ
次のユーティリティは、ブラウザーで動作する Web UI を備えています。
Azure Cloud Shell は、対話型のコマンド ライン シェルであり、ブラウザおよび Azure portal 内から実行します。
Apache Ambari Web UI は、Azure portal に用意されている管理および監視ユーティリティで、次のようなさまざまな種類のジョブを管理するために使用できます。
次の例に進む前に、Data Lake Tools for Visual Studio をインストールして試してください。
Visual Studio および .NET SDK
クラスターの管理やビッグ データ アプリケーションの開発のために Visual Studio で .NET SDK を使用することができます。 他の IDE を次のタスクに使用することもできますが、例では Visual Studio を使用しています。
Visual Studio で .NET SDK を使用して実行できるタスクの例:
- Azure HDInsight SDK for .NET。
- .NET SDK を使用して Apache Hive クエリを実行する。
- Apache Hadoop の Apache Hive と Apache Pig ストリーミングで C# のユーザー定義関数を使用する。
Spark クラスター用 Intellij IDEA および Eclipse IDE
Intellij IDEA と Eclipse IDE のどちらも次の操作に使用できます。
- Scala Spark アプリケーションを開発して HDInsight Spark クラスターに送信する。
- Spark クラスター リソースにアクセスする。
- Scala Spark アプリケーションをローカルで開発して実行する。
方法については、次の記事を参照してください。
- Intellij IDEA:Azure Toolkit for Intellij プラグインと Scala SDK を使用して Apache Spark アプリケーションを作成する。
- Eclipse IDE または Eclipse 用 Scala IDE:Apache Spark アプリケーションおよび Azure Toolkit for Eclipse を作成する
データ サイエンティスト向けの Spark のノートブック
HDInsight の Apache Spark クラスターには、Jupyter Notebook で使用できる Apache Zeppelin ノートブックとカーネルが含まれています。
- Apache Spark クラスターと Jupyter Notebook でカーネルを使用して Spark アプリケーションをテストする方法について学ぶ
- Apache Spark クラスターで Apache Zeppelin ノートブックを使用して Spark ジョブを実行する方法について学ぶ
Windows での Linux ベースのツールおよびテクノロジの実行
Linux のみで提供されているツールまたはテクノロジを使用する必要がある場合は、次のオプションを検討してください。
- Bash on Ubuntu on Windows 10 は、Windows で Linux サブシステムを提供します。 Bash では、専用の Linux インストールを管理することなく、Linux ユーティリティを直接実行することができます。 インストール手順については、「Windows Subsystem for Linux Installation Guide for Windows 10 (Windows 10 用 Windows Subsystem for Linux インストール ガイド)」をご覧ください。 他の Unix シェルも動作します。
- Docker for Windows は、多くの Linux ベースのツールへのアクセスを提供し、Windows から直接実行できます。 たとえば、Docker を使用して、Windows から Hive 用 Beeline クライアントを直接実行できます。 また、Docker を使用して、ローカル環境の Jupyter Notebook を実行し、HDInsight の Spark にリモート接続することもできます。 Docker for Windows を使用する
- MobaXTerm を使用すると、SSH 接続経由でクラスター ファイル システムをグラフィカルに参照することができます。
クロス プラットフォーム ツール
Azure コマンド ライン インターフェイス (CLI) は、Azure リソースを管理するための、Microsoft のクロスプラットフォーム コマンド ライン エクスペリエンスです。 詳細については、「Azure コマンド ライン インターフェイス (CLI)」を参照してください。
次のステップ
Linux ベースのクラスターで作業するのが初めての方は、次の記事を参照してください。