Azure HDInsight で Apache Spark と Kafka を使用して高度なストリーミング データ変換を実行する
このモジュールでは、Azure HDInsight を Apache Kafka と Apache Spark と合わせて使用することで、クラウド上にリアルタイムのストリーミング データ分析パイプラインとアプリケーションを作成する方法を学習します。
学習の目的
このモジュールを完了すると、次のことを理解できます。
- HDInsight で Apache Spark と Kafka を使うべきとき。
- Spark の構造化ストリーミング。
- Kafka と Spark ソリューションのアーキテクチャ。
- HDInsight をプロビジョニングし、Kafka プロデューサーを作成して、Kafka データを Jupyter Notebook にストリーム配信する方法。
- データをセカンダリ クラスターにレプリケートする方法。
前提条件
次の前提条件を完了する必要があります。
- Azure portal に正常にログインする。
- Azure のストレージ オプションについて理解する。
- Azure のコンピューティング オプションについて理解する。
- Azure portal で HDInsight クラスターを作成して構成します。