はじめに

1 分

Apache Spark は、大規模なデータ処理と分析のためのオープンソースの並列処理フレームワークです。 Spark は "ビッグデータ" 処理のシナリオで高い人気を極めており、Azure HDInsight、Azure Databricks、Azure Synapse Analytics など、複数のプラットフォーム実装で利用できます。

このモジュールでは、Azure Synapse Analytics で Spark を使用し、データレイクからデータを取り込み、処理し、分析する方法について説明します。このモジュールで説明する中心的手法とコードはすべての Spark 実装に共通していますが、統合されたツールと、他の Synapse 分析ランタイムと同じ環境で Spark を操作する機能は、Azure Synapse Analytics に固有のものです。

このモジュールを終了すると、次のことができるようになります。

Apache Spark の中心的機能を確認します。
Azure Synapse Analytics で Spark プールを構成します。
Spark ノートブックでデータを読み込み、分析し、視覚化するコードを実行します。

はじめに

フィードバック