Azure HDInsight で Apache Spark と Kafka を使用して高度なストリーミング データ変換を実行する

中級
データ エンジニア
データ サイエンティスト
Azure HDInsight

このモジュールでは、Azure HDInsight を Apache Kafka と Apache Spark と合わせて使用することで、クラウド上にリアルタイムのストリーミング データ分析パイプラインとアプリケーションを作成する方法を学習します。

学習の目的

このモジュールを完了すると、次のことを理解できます。

  • HDInsight で Apache Spark と Kafka を使うべきとき。
  • Spark の構造化ストリーミング。
  • Kafka と Spark ソリューションのアーキテクチャ。
  • HDInsight をプロビジョニングし、Kafka プロデューサーを作成して、Kafka データを Jupyter Notebook にストリーム配信する方法。
  • データをセカンダリ クラスターにレプリケートする方法。

前提条件

次の前提条件を完了する必要があります。

  • Azure portal に正常にログインする。
  • Azure のストレージ オプションについて理解する。
  • Azure のコンピューティング オプションについて理解する。
  • Azure portal で HDInsight クラスターを作成して構成します。