Azure Synapse Analytics で Spark を使用する

3 分

Python または Scala スクリプトのコード、Java アーカイブ (JAR) としてコンパイルされた Java コードなど、さまざまな種類のアプリケーションを Spark で実行できます。 Spark は、一般的に次の 2 種類のワークロードで使用されます。

データの取り込み、クリーニング、変換を行うバッチ処理ジョブまたはストリーム処理ジョブ。多くの場合、自動化されたパイプラインの一部として実行されます。
データの探索、分析、視覚化を行う対話型分析セッション。

ノートブックでの Spark コードの実行

Azure Synapse Studio には、Spark を操作するための統合ノートブックインターフェイスが含まれています。ノートブックは、コードと Markdown ノートを組み合わせる直感的な方法を提供します。これは、データ科学者やデータアナリストによってよく使用されます。 Azure Synapse Studio 内の統合されたノートブックエクスペリエンスの外観は、一般的なオープンソースのノートブックプラットフォームである Jupyter ノートブックと似ています。

Azure Synapse Studio のノートブックのスクリーンショット。

注意

通常は対話形式で使用されますが、ノートブックは自動化されたパイプラインに含め、無人スクリプトとして実行できます。

ノートブックは 1 つ以上の "セル" で構成され、それぞれにコードまたはマークダウンが含まれています。ノートブックのコードセルには、次のような生産性を高めるのに役立ついくつかの機能があります。

構文の強調表示とエラーのサポート。
コードのオートコンプリート。
対話型のデータ視覚化。
結果をエクスポートする機能。

ヒント

Azure Synapse Analytics でノートブックを操作する方法の詳細については、Azure Synapse Analytics ドキュメントの「Azure Synapse Analytics で Synapse ノートブックを作成、開発、管理する」の記事を参照してください。

Synapse Spark プールからのデータへのアクセス

Azure Synapse Analytics で Spark を使用して、次のようなさまざまなソースのデータを操作できます。

Azure Synapse Analytics ワークスペースのプライマリストレージアカウントに基づくデータレイク。
ワークスペース内の "リンクサービス" として定義されたストレージに基づくデータレイク。
ワークスペース内の専用またはサーバーレス SQL プール。
Azure SQL または SQL Server データベース (SQL Server に Spark コネクタを使用)
"リンクサービス" として定義され、"Cosmos DB 用の Azure Synapse Link" を使用して構成された Azure Cosmos DB 分析データベース。
ワークスペース内の "リンクサービス" として定義された Azure Data Explorer Kusto データベース。
ワークスペース内の "リンクサービス" として定義された外部 Hive メタストア。

Spark の最も一般的な用途の 1 つは、区切りテキスト、Parquet、Avro などの一般的に使用される複数の形式でファイルを読み書きできる、データレイク内のデータを操作することです。

Azure Synapse Analytics で Spark を使用する

ノートブックでの Spark コードの実行

Synapse Spark プールからのデータへのアクセス

フィードバック