Azure Synapse Analytics で Spark を使用する

完了

Python または Scala スクリプトのコード、Java アーカイブ (JAR) としてコンパイルされた Java コードなど、さまざまな種類のアプリケーションを Spark で実行できます。 Spark は、一般的に次の 2 種類のワークロードで使用されます。

  • データの取り込み、クリーニング、変換を行うバッチ処理ジョブまたはストリーム処理ジョブ。多くの場合、自動化されたパイプラインの一部として実行されます。
  • データの探索、分析、視覚化を行う対話型分析セッション。

ノートブックでの Spark コードの実行

Azure Synapse Studio には、Spark を操作するための統合ノートブック インターフェイスが含まれています。 ノートブックは、コードと Markdown ノートを組み合わせる直感的な方法を提供します。これは、データ科学者やデータ アナリストによってよく使用されます。 Azure Synapse Studio 内の統合されたノートブック エクスペリエンスの外観は、一般的なオープンソースのノートブック プラットフォームである Jupyter ノートブックと似ています。

Azure Synapse Studio のノートブックのスクリーンショット。

注意

通常は対話形式で使用されますが、ノートブックは自動化されたパイプラインに含め、無人スクリプトとして実行できます。

ノートブックは 1 つ以上の "セル" で構成され、それぞれにコードまたはマークダウンが含まれています。 ノートブックのコード セルには、次のような生産性を高めるのに役立ついくつかの機能があります。

  • 構文の強調表示とエラーのサポート。
  • コードのオートコンプリート。
  • 対話型のデータ視覚化。
  • 結果をエクスポートする機能。

ヒント

Azure Synapse Analytics でノートブックを操作する方法の詳細については、Azure Synapse Analytics ドキュメントの「Azure Synapse Analytics で Synapse ノートブックを作成、開発、管理する」の記事を参照してください。

Synapse Spark プールからのデータへのアクセス

Azure Synapse Analytics で Spark を使用して、次のようなさまざまなソースのデータを操作できます。

  • Azure Synapse Analytics ワークスペースのプライマリ ストレージ アカウントに基づくデータ レイク。
  • ワークスペース内の "リンク サービス" として定義されたストレージに基づくデータ レイク。
  • ワークスペース内の専用またはサーバーレス SQL プール。
  • Azure SQL または SQL Server データベース (SQL Server に Spark コネクタを使用)
  • "リンク サービス" として定義され、"Cosmos DB 用の Azure Synapse Link" を使用して構成された Azure Cosmos DB 分析データベース。
  • ワークスペース内の "リンク サービス" として定義された Azure Data Explorer Kusto データベース。
  • ワークスペース内の "リンク サービス" として定義された外部 Hive メタストア。

Spark の最も一般的な用途の 1 つは、区切りテキスト、Parquet、Avro などの一般的に使用される複数の形式でファイルを読み書きできる、データ レイク内のデータを操作することです。