次の方法で共有


Azure Synapse Analytics の用語

この記事では、Azure Synapse Analytics の基本的な概念を紹介します。

Synapse ワークスペース

Synapse ワークスペースは、Azure でクラウドベースのエンタープライズ分析を行うための、セキュリティ保護可能なコラボレーション境界です。 ワークスペースは、特定の Azure リージョンにデプロイされ、関連付けられた Azure Data Lake Storage Gen2 アカウントと、一時データを保存するためのファイル システムを持ちます。 ワークスペースは、リソース グループに属します。

ワークスペースを使用すると、SQL および Apache Spark で分析できます。 SQL および Spark の分析に利用できるリソースは SQL および Spark プールにまとめられます。

リンクされたサービス

ワークスペースには、任意の数のリンク サービスを含めることができます。これは、基本的には、ワークスペースが外部リソースに接続するために必要な情報を定義する接続文字列です。

Synapse SQL

Synapse SQL では、Synapse ワークスペースで Transact-SQL (T-SQL) ベースの分析を実行できます。 Synapse SQL には、専用とサーバーレスという 2 つの消費モデルがあります。 専用モデルの場合、専用の SQL プールを使用します。 ワークスペースには、このようなプールをいくらでも与えることができます。 サーバーレスモデルを使用するには、サーバーレス SQL プールを使用します。 ワークスペースごとにこのようなプールが 1 つ与えられます。

Synapse Studio 内で、SQL スクリプトを実行することによって、SQL プールを操作できます。

Note

Azure Synapse の専用 SQL プールは、専用 SQL プール (旧称 SQL DW) とは異なります。 Azure Synapse ワークスペース内の専用 SQL プールのすべての機能が専用の SQL プール (以前の SQL DW) に適用されるわけではなく、その逆も同様です。 既存の専用 SQL プール (旧称 SQL DW) のワークスペース機能を有効にするには、専用 SQL プール (以前の SQL DW) に対してワークスペース機能を有効にするを参照してください。

Synapse 用の Apache Spark

Spark 分析を使用するには、Synapse ワークスペースでサーバーレス Apache Spark プールを作成し、使用します。 Spark プールの使用を開始すると、ワークスペースによって Spark セッションが作成され、そのセッションに関連付けられているリソースが処理されます。

Synapse では、次の 2 とおりの方法で Spark を使用できます。

  • Scala、PySpark、C#、SparkSQL を使用したデータ サイエンスやエンジニアリングのための Spark Notebooks
  • jar ファイルを使用してバッチ Spark ジョブを実行するための Spark ジョブ定義

SynapseML

SynapseML (旧称 MMLSpark) は、高度にスケーラブルな機械学習 (ML) パイプラインの作成を簡略化するオープンソース ライブラリです。 これは、Apache Spark フレームワークをいくつかの新しい方向へ拡張するために使われるツールのエコシステムです。 SynapseML は、いくつかの既存の機械学習フレームワークと新しい Microsoft アルゴリズムを、Python、R、Scala、.NET、Java で使用できる単一のスケーラブルな API に統合します。 詳細については、SynapseML とはを参照してください

Pipelines

パイプラインは、Azure Synapse でデータ統合を提供する方法です。これにより、サービス間でデータを移動したり、アクティビティを調整したりすることができます。

  • パイプラインは、1 つのタスクを連携して実行するアクティビティの論理的なグループです。
  • アクティビティは、データのコピー、ノートブックや SQL スクリプトの実行など、データに対して実行する、パイプライン内のアクションを定義します。
  • データ フローは、内部的に Synapse Spark を使用するデータ変換を実行するための、ノー コードのエクスペリエンスを提供する、特定の種類のアクティビティです。
  • トリガーは、パイプラインを実行します。 手動または自動で実行できます (スケジュール、タンブリング ウィンドウ、またはイベントベース)。
  • 統合データセットは、アクティビティで入力および出力として使用されるデータを単にポイントまたは参照する、データの名前付きビューです。 リンク サービスに属します。

Data Explorer (プレビュー)

Azure Synapse Data Explorer は、ログとテレメトリ データから分析情報を引き出すための対話型クエリ エクスペリエンスを顧客に提供します。

  • Data Explorer プールは、クエリのパフォーマンスを最適化するためのローカル SSD ストレージ (ホット キャッシュ) と、永続化のための複数のストレージ BLOB (コールド キャッシュ) を備えた 2 つ以上のコンピューティング ノードを含む専用クラスターです。
  • Data Explorer データベースは、Data Explorer プール上でホストされ、テーブルなどのデータベース オブジェクトのコレクションで構成される論理エンティティです。 プールごとに複数のデータベースを使用できます。
  • テーブルは、従来のリレーショナル データ モデルを使用して整理されたデータを格納するデータベース オブジェクトです。 データは、列の順序指定済みリストが定義され、各列には名前とスカラー データ型が含まれている、Data Explorer の明確に定義されたテーブル スキーマに準拠したレコードに保存されます。 スカラー データ型は、構造化 (intrealdatetime、または timespan)、半構造化 (dynamic)、フリー テキスト (string) のいずれかになります。 dynamic 型は、単一のスカラー値、配列、またはそのような値の辞書を保持できるという点で、JSON に似ています。
  • 外部テーブルは、Data Explorer データベースの外部にあるストレージまたは SQL データ ソースを参照するテーブルです。 外部テーブルには、テーブルと同じように、明確に定義されたスキーマ (列名とデータ型のペアの順序指定済みリスト) があります。 Data Explorer プールにデータが取り込まれる Data Explorer テーブルとは異なり、外部テーブルは、プールの外部に格納され、管理されているデータに対して動作します。 外部テーブルにはデータは保持されず、データのクエリや、外部データ ストアへのエクスポートに使用されます。