正しい HDInsight の構成オプションを選択するための意思決定条件
HDInsight サービスには、さまざまな分析シナリオに使用できるさまざまな構成があります。 実際、HDInsight には非常に多くの OSS 分析テクノロジが含まれており、高度な分析ニーズを満たすためのワン ストップ ショップと見なすことができます。 使用可能な各種のクラスターはすべて、以下に示すビジネス シナリオのニーズを満たすことができます。 各種のクラスターを使用すると、HDInsight 内でこれらの各シナリオを管理する方法を完全に制御することができます。
ビジネス価値を得るためにデータを処理および分析するシナリオに関しては、多くの企業が同様の要件を持っています。 これらの要件には、次のものが含まれます。
バッチ処理
HDInsight は、Hadoop または Spark のいずれかと、Hive や Sqoop などのデータ処理フレームワークを使用する、構造化データと非構造化データの両方で抽出、変換、読み込み (ETL) 操作、または抽出、読み込み、変換 (ELT) 操作に使用できます。
データ ウェアハウジング
従来は、SQL Server などのオンプレミスのリレーショナル データベースによって行われ、最近では、Azure SQL Data Warehouse で構造化データを使用してペタバイト規模で行われています。 HDInsight を使用すると、さまざまな形式の構造化データまたは非構造化データに対して対話型クエリをペタバイト規模で実行することができます。 この機能は、HDInsight Hadoop と Hive を使用してデータ操作とレポートの要件を管理する場合に適しています。
ストリーミング データ
ストリーミング データは、Spark Streaming を使用して、Event Hub または IoT Hub を介して、HDInsight を使用してさまざまなソースから取り込むことができます。
ハイブリッド
一部の組織では、既にオンプレミスのビッグ データ インフラストラクチャを持っています。 HDInsight を使用して、この機能をクラウドに拡張することができます。
HDInsight クラスターの正しい構成オプションを選択するための重要な決定点は、HDInsight クラスターがサービスを提供するワークロードに基づいています。 組織で複数のワークロードを使用する場合、処理が必要なワークロードに合わせて異なる HDInsight 構成に切り替えることは珍しくありません。
ワークロードの種類 | クラスターの種類 |
---|---|
データのバッチ移動 | Apache Hadoop |
データ サイエンス – バッチとストリーミング | Apache Spark |
トランザクション ワークロード | HBase |
アドホック分析/データ ウェアハウス | Apache Interactive Query |
ストリーミング分析 | Apache Kafka |
重要
HDInsight クラスターには、さまざまな種類があり、それぞれ単一のワークロードまたはテクノロジに対応しています。 1 つのクラスターで Hadoop と HBase のように複数の種類を組み合わせたクラスターを作成する方法はサポートされていません。 複数の種類の HDInsight クラスターにまたがるテクノロジがソリューションに必要な場合は、Azure 仮想ネットワークでさまざまな種類の必要なクラスターを接続できます。