Azure Synapse Analytics の用語

[アーティクル]
02/10/2025

この記事では、Azure Synapse Analytics の基本的な概念を紹介します。

Synapse ワークスペース

Synapse ワークスペースは、Azure でクラウドベースのエンタープライズ分析を行うための、セキュリティ保護可能なコラボレーション境界です。ワークスペースは、特定の Azure リージョンにデプロイされ、関連付けられた Azure Data Lake Storage Gen2 アカウントと、一時データを保存するためのファイルシステムを持ちます。ワークスペースは、リソースグループに属します。

ワークスペースを使用すると、SQL および Apache Spark で分析できます。 SQL および Spark の分析に利用できるリソースは SQL および Spark プールにまとめられます。

リンクされたサービス

ワークスペースには、任意の数のリンクサービスを含めることができます。これは、基本的には、ワークスペースが外部リソースに接続するために必要な情報を定義する接続文字列です。

Synapse SQL

Synapse SQL では、Synapse ワークスペースで Transact-SQL (T-SQL) ベースの分析を実行できます。 Synapse SQL には、専用とサーバーレスという 2 つの消費モデルがあります。専用モデルの場合、専用の SQL プールを使用します。ワークスペースには、このようなプールをいくらでも与えることができます。サーバーレスモデルを使用するには、サーバーレス SQL プールを使用します。ワークスペースごとにこのようなプールが 1 つ与えられます。

Synapse Studio 内で、SQL スクリプトを実行することによって、SQL プールを操作できます。

Note

Azure Synapse の専用 SQL プールは、専用 SQL プール (旧称 SQL DW) とは異なります。 Azure Synapse ワークスペース内の専用 SQL プールのすべての機能が専用の SQL プール (以前の SQL DW) に適用されるわけではなく、その逆も同様です。既存の専用 SQL プール (旧称 SQL DW) のワークスペース機能を有効にするには、専用 SQL プール (以前の SQL DW) に対してワークスペース機能を有効にするを参照してください。

Synapse 用の Apache Spark

Spark 分析を使用するには、Synapse ワークスペースでサーバーレス Apache Spark プールを作成し、使用します。 Spark プールの使用を開始すると、ワークスペースによって Spark セッションが作成され、そのセッションに関連付けられているリソースが処理されます。

Synapse では、次の 2 とおりの方法で Spark を使用できます。

Scala、PySpark、C#、SparkSQL を使用したデータサイエンスやエンジニアリングのための Spark Notebooks
jar ファイルを使用してバッチ Spark ジョブを実行するための Spark ジョブ定義

SynapseML

SynapseML (旧称 MMLSpark) は、高度にスケーラブルな機械学習 (ML) パイプラインの作成を簡略化するオープンソースライブラリです。これは、Apache Spark フレームワークをいくつかの新しい方向へ拡張するために使われるツールのエコシステムです。 SynapseML は、いくつかの既存の機械学習フレームワークと新しい Microsoft アルゴリズムを、Python、R、Scala、.NET、Java で使用できる単一のスケーラブルな API に統合します。詳細については、SynapseML とはを参照してください

Pipelines

パイプラインは、Azure Synapse でデータ統合を提供する方法です。これにより、サービス間でデータを移動したり、アクティビティを調整したりすることができます。

パイプラインは、1 つのタスクを連携して実行するアクティビティの論理的なグループです。
アクティビティは、データのコピー、ノートブックや SQL スクリプトの実行など、データに対して実行する、パイプライン内のアクションを定義します。
データフローは、内部的に Synapse Spark を使用するデータ変換を実行するための、ノーコードのエクスペリエンスを提供する、特定の種類のアクティビティです。
トリガーは、パイプラインを実行します。手動または自動で実行できます (スケジュール、タンブリングウィンドウ、またはイベントベース)。
統合データセットは、アクティビティで入力および出力として使用されるデータを単にポイントまたは参照する、データの名前付きビューです。リンクサービスに属します。

Data Explorer (プレビュー)

Azure Synapse Data Explorer は、ログとテレメトリデータから分析情報を引き出すための対話型クエリエクスペリエンスを顧客に提供します。

Data Explorer プールは、クエリのパフォーマンスを最適化するためのローカル SSD ストレージ (ホットキャッシュ) と、永続化のための複数のストレージ BLOB (コールドキャッシュ) を備えた 2 つ以上のコンピューティングノードを含む専用クラスターです。
Data Explorer データベースは、Data Explorer プール上でホストされ、テーブルなどのデータベースオブジェクトのコレクションで構成される論理エンティティです。プールごとに複数のデータベースを使用できます。
テーブルは、従来のリレーショナルデータモデルを使用して整理されたデータを格納するデータベースオブジェクトです。データは、列の順序指定済みリストが定義され、各列には名前とスカラーデータ型が含まれている、Data Explorer の明確に定義されたテーブルスキーマに準拠したレコードに保存されます。スカラーデータ型は、構造化 (int、real、datetime、または timespan)、半構造化 (dynamic)、フリーテキスト (string) のいずれかになります。 dynamic 型は、単一のスカラー値、配列、またはそのような値の辞書を保持できるという点で、JSON に似ています。
外部テーブルは、Data Explorer データベースの外部にあるストレージまたは SQL データソースを参照するテーブルです。外部テーブルには、テーブルと同じように、明確に定義されたスキーマ (列名とデータ型のペアの順序指定済みリスト) があります。 Data Explorer プールにデータが取り込まれる Data Explorer テーブルとは異なり、外部テーブルは、プールの外部に格納され、管理されているデータに対して動作します。外部テーブルにはデータは保持されず、データのクエリや、外部データストアへのエクスポートに使用されます。

次の方法で共有

Azure Synapse Analytics の用語

Synapse ワークスペース

リンクされたサービス

Synapse SQL

Synapse 用の Apache Spark

SynapseML

Pipelines

Data Explorer (プレビュー)

フィードバック

その他のリソース

次の方法で共有

Azure Synapse Analytics の用語

Synapse ワークスペース

リンクされたサービス

Synapse SQL

Synapse 用の Apache Spark

SynapseML

Pipelines

Data Explorer (プレビュー)

関連するコンテンツ

フィードバック

その他のリソース