はじめに
Azure Databricks は、Apache Spark を使ったデータ分析と処理のための高度にスケーラブルなプラットフォームを提供します。
Spark は、多くの異なるプログラミング言語と API をサポートする柔軟なプラットフォームです。 Databricks ワークスペースを設定し、Spark クラスターをデプロイすることで、ユーザーは Azure Data Lake や Cosmos DB などのさまざまなソースから Spark DataFrame にデータを簡単に取り込むことができます。 対話型 Databricks ノートブック内では、ユーザーはフィルター処理、グループ化、集計などの操作が含まれている Spark の DataFrame API を使用して複雑なデータ変換を実行できます。 データ処理と分析のほとんどのタスクは、Dataframe API を使って実現できます。このモジュールではこれに焦点を当てます。
このモジュールでは、次の方法を学習します。
- Apache Spark アーキテクチャの重要な要素について説明します。
- Spark クラスターを作成して構成します。
- Spark のユース ケースについて説明します。
- Spark を使用して、ファイルに格納されているデータを処理および分析します。
- Spark を使用してデータを視覚化します。