Azure Synapse Analytics のしくみ
今日の組織の分析ニーズをサポートするために、Azure Synapse Analytics では、データのストレージと処理のために一元化されたサービスと拡張可能なアーキテクチャとを組み合わせて、"リンク サービス" により、一般的に使用されるデータ ストア、処理プラットフォーム、視覚化ツールを統合できます。
Azure Synapse Analytics ワークスペースの作成と使用
Synapse Analytics "ワークスペース" では、Synapse Analytics サービスのインスタンスが定義されます。ここで、分析ソリューションに必要なサービスとデータ リソースを管理できます。 Azure portal を使用して Azure サブスクリプションに Synapse Analytics ワークスペースを対話形式で作成することも、Azure PowerShell、Azure コマンド ライン インターフェイス (CLI)、Azure Resource Manager、または Bicep テンプレートを使用してデプロイを自動化することもできます。
Synapse Analytics ワークスペースの作成後は、Azure Synapse Analytics 用の Web ベースのポータルである Synapse Studio を使用して、その中のサービスを管理し、データ分析タスクを実行できます。
データ レイク内のファイルの操作
Synapse Analytics ワークスペースのコア リソースの 1 つが "データ レイク" です。ここにデータ ファイルを格納して大規模に処理できます。 通常、ワークスペースには既定のデータ レイクがあり、Azure Data Lake Storage Gen2 コンテナーへのリンク サービスとして実装されます。 必要に応じて、異なるストレージ プラットフォームに基づく複数のデータ レイクのリンク サービスを追加できます。
パイプラインを使用したデータの取り込みと変換
ほとんどのエンタープライズ データ分析ソリューションでは、データは複数の運用ソースから抽出され、分析のために中央のデータ レイクまたはデータ ウェアハウスに転送されます。 Azure Synapse Analytics では、さまざまなソースからデータを取得し、必要に応じてデータを変換し、結果として変換されたデータを分析ストアに読み込むために必要なアクティビティを調整する "パイプライン" の作成、実行、管理がサポートされています。
Note
Azure Synapse Analytics のパイプラインは、Azure Data Factory と同じテクノロジが基になっています。 Azure Data Factory に既に慣れている場合は、既存のスキルを活用して、Azure Synapse Analytics でデータ インジェストと変換のソリューションを構築できます。
SQL を使用したデータの照会と操作
構造化照会言語 (SQL) は、データのクエリと操作のためのユビキタス言語であり、一般的な Microsoft SQL Server データベース プラットフォームを含むリレーショナル データベースの基盤です。 Azure Synapse Analytics では、SQL Server リレーショナル データベース エンジンに基づく 2 種類の SQL "プール" を使用した SQL ベースのデータのクエリと操作がサポートされています。
- 組み込みの "サーバーレス" プールは、リレーショナル SQL セマンティクスを使用してデータ レイク内のファイル ベースのデータを照会するために最適化されています。
- カスタムの "専用" SQL プールは、リレーショナル データ ウェアハウスをホストします。
Azure Synapse SQL システムでは、分散クエリ処理モデルを使用して SQL 操作を並列化し、リレーショナル データ処理のための高度にスケーラブルなソリューションを実現します。 組み込みのサーバーレス プールを使用して、データ レイク内のファイル データの分析と処理を高いコスト効率で行い、専用 SQL プールを使用してエンタープライズ データ モデリングとレポート作成用のリレーショナル データ ウェアハウスを作成できます。
Apache Spark を使用したデータの処理と分析
Apache Spark は、ビッグ データ分析用のオープンソース プラットフォームです。 Spark では、サポートされているさまざまなプログラミング言語を使用して実装できるジョブを実行することで、データ レイク内のファイルの分散処理を実行します。 Spark でサポートされる言語には、Python、Scala、Java、SQL、C# があります。
Azure Synapse Analytics では、1 つ以上の Spark プールを作成し、対話型 "ノートブック" を使用してコードとノートを組み合わせて、データ分析、機械学習、およびデータの可視化のためのソリューションを構築できます。
Data Explorer によるデータの調査
Azure Synapse Data Explorer は Azure Synapse Analytics のデータ処理エンジンで、Azure Data Explorer サービスに基づいています。 Data Explorer では、Kusto 照会言語 (KQL) という名前の直感的なクエリ構文を使用して、バッチ データとストリーミング データの高パフォーマンスで待機時間の短い分析を実現します。
他の Azure データ サービスとの統合
Azure Synapse Analytics は、エンド ツー エンドの分析ソリューションのために他の Azure データ サービスと統合できます。 統合ソリューションには次のものが含まれます。
- Azure Synapse Link を使用すると、Azure Cosmos DB、Azure SQL Database、SQL Server、および Microsoft Power Platform Dataverse の運用データと、Azure Synapse Analytics でクエリできる分析データ ストレージとの間でほぼリアルタイムの同期が可能になります。
- Microsoft Power BI 統合により、データ アナリストは Power BI ワークスペースを Synapse ワークスペースに統合し、Azure Synapse Studio で対話型のデータの可視化を実行できます。
- Microsoft Purview 統合を使用すると、組織では Azure Synapse Analytics でデータ資産をカタログ化でき、データ エンジニアはデータ資産を簡単に見つけ出し、データ系列を追跡して、Azure Synapse Analytics にデータを取り込むデータ パイプラインを実装できます。
- Azure Machine Learning 統合により、データ アナリストとデータ サイエンティストは、予測モデルのトレーニングと消費を分析ソリューションに統合できます。