クラウド規模の分析と共に Azure Synapse Analytics を使用する
Azure Synapse Analytics は、データ ウェアハウスやビッグ データ システム全体にわたって分析情報を取得する時間を短縮する、プロビジョニングされた統合分析サービスです。 Azure Synapse Analytics の特長:
- エンタープライズ データ ウェアハウスで使用される最高クラスの SQL テクノロジ。
- ビッグ データに使用される Spark テクノロジ。
- データ アプリケーション (ソースアライン済み) と、抽出、変換、読み込み (ETL) または抽出、読み込み、変換 (ELT) のパイプライン。
Azure Synapse Studio は Azure Synapse 内のツールであり、管理、監視、コーディング、セキュリティのための統一されたエクスペリエンスが用意されています。 Synapse Studio は、Power BI、Azure Cosmos DB、Azure Machine Learning などの他の Azure サービスと緊密に統合されています。
Note
このセクションの目的は、クラウド規模の分析に固有の所定の構成について説明することです。 これは、公式の Azure Synapse Analytics ドキュメントを補完するものです。
概要
データ ランディング ゾーンの初期設定時に、すべてのアナリストとデータ サイエンティストが使用できる 1 つの Azure Synapse Analytics ワークスペースをデプロイすることができます。 特定のデータ統合またはデータ製品のために、さらにワークスペースを作成することができます。
データ製品で行レベルと列レベルのセキュリティを使用して標準化されたデータへのアクセスを提供することが必要になる場合、Azure Synapse Analytics ワークスペースがさらに必要になることがあります。 このようなワークスペースは、Azure Synapse プールを使用して用意できます。 データ製品チームは、データ製品を作成するための独自のワークスペースと、スコープを限定した開発アクセスを持つ製品チーム専用の別のワークスペースが必要になる場合があります。
Azure Synapse Analytics の設定
Azure Synapse Analytics をデプロイする最初の手順は、Azure Purview アカウントに接続している Azure Synapse ワークスペースを設定することです。
Azure Synapse Analytics ネットワーク
データ ランディング ゾーンにより、Azure Synapse Analytics マネージド仮想ネットワークを使用してワークスペースが作成されます。 Azure Synapse との通信は、SQL プール、SQL オンデマンド、開発エンドポイントという公開されている 3 つのエンドポイントを介して行われます。
ネットワーク レベルでは、クラウド規模の分析に Synapse マネージド プライベート エンドポイントが使用されます。 これらのエンドポイントを使用すると、データ ランディング ゾーンの仮想ネットワークと Azure Synapse ワークスペース間のすべてのトラフィックが Microsoft バックボーン ネットワーク上で完結することが保証されます。
Azure Synapse データのアクセス制御
Azure Synapse Analytics で Microsoft Entra パススルーによるアクセス制御リストを使って、データ レイク内のファイルへのアクセスを管理します。
返される列と行を制限する必要があるデータについては、行レベルおよび列レベルのセキュリティを使用して、Azure Synapse SQL 専用またはサーバーレス プールのテーブルに対するデータ アクセスを制限することをお勧めします。 行レベルのセキュリティと列レベルのセキュリティは、データベース ロールに加え、データベース レベルで実装されます。
たとえば、行レベルのセキュリティを使用すると、特定のデータ アプリケーション (ソースアライン済み) やデータ製品のユーザーには、自身のデータのみが表示されます。 たとえテーブルに企業全体のデータが含まれている場合もそうなります。
行レベルのセキュリティと列レベルのセキュリティを組み合わせて、機密データを含む列へのアクセスを制限することができます。 この方法では、行レベルのセキュリティと列レベルのセキュリティの両方によって、アプリケーション層ではなく、データベース層でアクセス制限ロジックが適用されます。 任意の層からデータ アクセスが試行されるたびに、アクセス許可が評価されます。
Note
Azure Synapse サーバーレス SQL プールでは、ビューの列レベルのセキュリティはサポートされていますが、外部テーブルの列レベルのセキュリティはサポートされていません。 外部テーブルの場合、外部テーブルの上に論理ビューを作成してから、列レベルのセキュリティを適用できます。 行レベルのセキュリティの場合、カスタム ビューを回避策として使用できます。
詳細については、「Azure Synapse Analytics データ アクセス制御」を参照してください。
Azure Data Lake での Azure Synapse データのアクセス制御
サブスクリプションから、またはストレージ アカウント URL を手動で使用して Azure Synapse Analytics ワークスペースをデプロイするときは、Azure Data Lake Storage アカウントが必要です。 指定されたストレージ アカウントは、デプロイされた Azure Synapse ワークスペースにデータを格納するためのプライマリとして設定されます。 Azure Synapse により、 /synapse/{workspaceName}
というフォルダー内の Apache Spark テーブルと Spark アプリケーション ログを含むコンテナーにデータが格納されます。 また、インストールを選択したライブラリを管理するコンテナーもあります。
ヒント
開発レイヤーまたはデータ レイク 3 アカウントで専用コンテナーを使用することをお勧めします。 このコンテナーは、Spark のメタデータを格納するプライマリ ストレージとして使用されます。
データ アクセスの設定方法についての推奨事項については、「Azure Synapse Analytics データ アクセス制御」を参照してください。