クラウド規模の分析と共に Azure Synapse Analytics を使用する

[アーティクル]
2023-07-11

Azure Synapse Analytics は、データウェアハウスやビッグデータシステム全体にわたって分析情報を取得する時間を短縮する、プロビジョニングされた統合分析サービスです。 Azure Synapse Analytics の特長:

エンタープライズデータウェアハウスで使用される最高クラスの SQL テクノロジ。
ビッグデータに使用される Spark テクノロジ。
データアプリケーション (ソースアライン済み) と、抽出、変換、読み込み (ETL) または抽出、読み込み、変換 (ELT) のパイプライン。

Azure Synapse Studio は Azure Synapse 内のツールであり、管理、監視、コーディング、セキュリティのための統一されたエクスペリエンスが用意されています。 Synapse Studio は、Power BI、Azure Cosmos DB、Azure Machine Learning などの他の Azure サービスと緊密に統合されています。

Note

このセクションの目的は、クラウド規模の分析に固有の所定の構成について説明することです。これは、公式の Azure Synapse Analytics ドキュメントを補完するものです。

概要

データランディングゾーンの初期設定時に、すべてのアナリストとデータサイエンティストが使用できる 1 つの Azure Synapse Analytics ワークスペースをデプロイすることができます。特定のデータ統合またはデータ製品のために、さらにワークスペースを作成することができます。

データ製品で行レベルと列レベルのセキュリティを使用して標準化されたデータへのアクセスを提供することが必要になる場合、Azure Synapse Analytics ワークスペースがさらに必要になることがあります。このようなワークスペースは、Azure Synapse プールを使用して用意できます。データ製品チームは、データ製品を作成するための独自のワークスペースと、スコープを限定した開発アクセスを持つ製品チーム専用の別のワークスペースが必要になる場合があります。

Azure Synapse Analytics の設定

Azure Synapse Analytics をデプロイする最初の手順は、Azure Purview アカウントに接続している Azure Synapse ワークスペースを設定することです。

Azure Synapse Analytics ネットワーク

データランディングゾーンにより、Azure Synapse Analytics マネージド仮想ネットワークを使用してワークスペースが作成されます。 Azure Synapse との通信は、SQL プール、SQL オンデマンド、開発エンドポイントという公開されている 3 つのエンドポイントを介して行われます。

ネットワークレベルでは、クラウド規模の分析に Synapse マネージドプライベートエンドポイントが使用されます。これらのエンドポイントを使用すると、データランディングゾーンの仮想ネットワークと Azure Synapse ワークスペース間のすべてのトラフィックが Microsoft バックボーンネットワーク上で完結することが保証されます。

Azure Synapse データのアクセス制御

Azure Synapse Analytics で Microsoft Entra パススルーによるアクセス制御リストを使って、データレイク内のファイルへのアクセスを管理します。

返される列と行を制限する必要があるデータについては、行レベルおよび列レベルのセキュリティを使用して、Azure Synapse SQL 専用またはサーバーレスプールのテーブルに対するデータアクセスを制限することをお勧めします。行レベルのセキュリティと列レベルのセキュリティは、データベースロールに加え、データベースレベルで実装されます。

たとえば、行レベルのセキュリティを使用すると、特定のデータアプリケーション (ソースアライン済み) やデータ製品のユーザーには、自身のデータのみが表示されます。たとえテーブルに企業全体のデータが含まれている場合もそうなります。

行レベルのセキュリティと列レベルのセキュリティを組み合わせて、機密データを含む列へのアクセスを制限することができます。この方法では、行レベルのセキュリティと列レベルのセキュリティの両方によって、アプリケーション層ではなく、データベース層でアクセス制限ロジックが適用されます。任意の層からデータアクセスが試行されるたびに、アクセス許可が評価されます。

Note

Azure Synapse サーバーレス SQL プールでは、ビューの列レベルのセキュリティはサポートされていますが、外部テーブルの列レベルのセキュリティはサポートされていません。外部テーブルの場合、外部テーブルの上に論理ビューを作成してから、列レベルのセキュリティを適用できます。行レベルのセキュリティの場合、カスタムビューを回避策として使用できます。

詳細については、「Azure Synapse Analytics データアクセス制御」を参照してください。

Azure Data Lake での Azure Synapse データのアクセス制御

サブスクリプションから、またはストレージアカウント URL を手動で使用して Azure Synapse Analytics ワークスペースをデプロイするときは、Azure Data Lake Storage アカウントが必要です。指定されたストレージアカウントは、デプロイされた Azure Synapse ワークスペースにデータを格納するためのプライマリとして設定されます。 Azure Synapse により、 /synapse/{workspaceName} というフォルダー内の Apache Spark テーブルと Spark アプリケーションログを含むコンテナーにデータが格納されます。また、インストールを選択したライブラリを管理するコンテナーもあります。

ヒント

開発レイヤーまたはデータレイク 3 アカウントで専用コンテナーを使用することをお勧めします。このコンテナーは、Spark のメタデータを格納するプライマリストレージとして使用されます。

データアクセスの設定方法についての推奨事項については、「Azure Synapse Analytics データアクセス制御」を参照してください。

次の手順

クラウド規模の分析のための Azure Purview 適合性チェックリスト