はじめに
Apache Spark は、大規模なデータ処理と分析のためのオープンソースの並列処理フレームワークです。 Spark は "ビッグ データ" 処理のシナリオで高い人気を極めており、Azure HDInsight、Azure Databricks、Azure Synapse Analytics など、複数のプラットフォーム実装で利用できます。
このモジュールでは、Azure Synapse Analytics で Spark を使用し、データ レイクからデータを取り込み、処理し、分析する方法について説明します。 このモジュールで説明する中心的手法とコードはすべての Spark 実装に共通していますが、統合されたツールと、他の Synapse 分析ランタイムと同じ環境で Spark を操作する機能は、Azure Synapse Analytics に固有のものです。
このモジュールを終了すると、次のことができるようになります。
- Apache Spark の中心的機能を確認します。
- Azure Synapse Analytics で Spark プールを構成します。
- Spark ノートブックでデータを読み込み、分析し、視覚化するコードを実行します。