編集

次の方法で共有


ランディング ゾーンの Azure Synapse Analytics

Azure Synapse Analytics
Azure Private Link
Azure Data Lake Storage
Azure Key Vault

この記事では、Azure Synapse Analytics のスケーラブルでセキュリティの強化されたデプロイのために Azure ランディング ゾーンのサブスクリプションを準備するためのアーキテクチャ手法について説明します。 エンタープライズ分析サービスである Azure Synapse は、データ ウェアハウス、ビッグ データ処理、データ統合、管理を組み合わせたものです。

この記事では、ランディング ゾーンを効果的に構築して運用するために必要なプラットフォーム基盤を既に実装していることを前提としています。

Apache®、Spark、および炎のロゴは、Apache Software Foundation の米国およびその他の国における登録商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

アーキテクチャ

Azure Synapse Analytics の参照アーキテクチャを示す図。

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

  • このアーキテクチャの中核となるコンポーネントは、データ インジェストやデータ処理からサービスと分析まで、さまざまな機能を提供する統合サービスである Azure Synapse です。 マネージド仮想ネットワーク内の Azure Synapse により、ワークスペースのネットワークの分離が実現します。 データ流出保護を有効にすることで、承認されたターゲットのみに送信接続を制限できます。
  • マネージド仮想ネットワークに配置された Azure Synapse のリソース、Azure 統合ランタイム、および Spark プールは、マネージド プライベート エンドポイントを使用して、Azure Data Lake Storage、Azure Key Vault、およびその他のセキュリティが強化された Azure データ ストアに接続できます。 マネージド仮想ネットワークの外部でホストされている Azure Synapse SQL プールは、エンタープライズ仮想ネットワーク内のプライベート エンドポイントを介して Azure サービスに接続できます。
  • 管理者は、管理グループ レベルでデータ ランディング ゾーン全体に適用される Azure ポリシーを使用して、Azure Synapse ワークスペース、Data Lake Storage、Key Vault、Log Analytics、およびその他のデータ ストアへのプライベート接続を強制できます。 また、データ流出保護を有効にして、エグレス トラフィックのセキュリティを強化することもできます。
  • ユーザーは、Azure Synapse の Private Link ハブ経由で、制限付きオンプレミス ネットワークから Web ブラウザーを使用して Synapse Studio にアクセスします。 Private Link ハブは、セキュリティが強化されたプライベート リンク経由で Synapse Studio を読み込むために使用されます。 ハブ仮想ネットワーク内のプライベート エンドポイントを使用して、単一の Azure Synapse Private Link ハブ リソースが接続サブスクリプションにデプロイされます。 ハブ仮想ネットワークは、Azure ExpressRoute 経由でオンプレミス ネットワークに接続されます。 Private Link ハブ リソースを使用すると、Synapse Studio 経由ですべての Azure Synapse ワークスペースにプライベートに接続できます。
  • データ エンジニアは、セルフホステッド統合ランタイムで実行される Azure Synapse パイプラインの Copy アクティビティを使用して、オンプレミス環境でホストされているデータ ストアと、Data Lake Storage や SQL プールなどのクラウド データ ストアの間でデータを取り込みます。 オンプレミス環境は、ExpressRoute 経由で Azure 上のハブ仮想ネットワークに接続されます。
  • データ エンジニアは、Azure Synapse の Data Flow アクティビティと Spark プールを使用して、マネージド プライベート エンドポイント経由でAzure Synapse のマネージド仮想ネットワークに接続されているクラウド データ ストアでホストされているデータを変換します。 オンプレミス環境にあるデータの場合、Spark プールを使用した変換には、カスタム Private Link サービスを介した接続が必要です。 カスタム Private Link サービスでは、ネットワーク アドレス変換 (NAT) VM を使用してオンプレミスのデータ ストアに接続します。 マネージド仮想ネットワークからオンプレミスのデータ ストアにアクセスするための Private Link サービスの設定については、「プライベート エンドポイントを使用して Data Factory マネージド VNet からオンプレミスの SQL Server にアクセスする方法」を参照してください。
  • Azure Synapse でデータ流出保護が有効になっている場合、Log Analytics ワークスペースへの Spark アプリケーション ログは、マネージド プライベート エンドポイント経由で Azure Synapse のマネージド仮想ネットワークに接続されている Azure Monitor Private Link スコープ リソースを介してルーティングされます。 図に示すように、単一の Azure Monitor Private Link スコープ リソースが、ハブ仮想ネットワーク内のプライベート エンドポイントを使用して接続サブスクリプションでホストされます。 すべての Log Analytics ワークスペースと Application Insights リソースは、Azure Monitor Private Link スコープを介してプライベートにアクセスできます。

コンポーネント

  • Azure Synapse Analytics は、データ ウェアハウスやビッグ データ システム全体にわたって分析情報を取得する時間を早めるエンタープライズ分析サービスです。
  • Azure Synapse のマネージド仮想ネットワークは、他のワークスペースからのネットワークの分離を Azure Synapse のワークスペースに提供します。
  • Azure Synapse のマネージド プライベート エンドポイントは、Azure Synapse ワークスペースに関連付けられているマネージド仮想ネットワークに作成されたプライベート エンドポイントです。 マネージド プライベート エンドポイントにより、マネージド仮想ネットワークの外部にある Azure リソースへのプライベート リンク接続が確立されます。
  • データ流出保護を備えた Azure Synapse ワークスペースは、組織の範囲外にある場所への機密データの流出を防ぎます。
  • Azure Private Link ハブは、セキュリティ保護されたネットワークと Synapse Studio Web エクスペリエンスの間のコネクタとして機能する Azure リソースです。
  • 統合ランタイムは、異なるネットワーク環境間でデータ統合機能を提供するために Azure Synapse パイプラインによって使用されるコンピューティング インフラストラクチャです。 セルフホステッド コンピューティング統合ランタイムを使用して、マネージド Azure コンピューティング統合ランタイムで Data Flow アクティビティを、またはネットワーク間で Copy アクティビティを実行します。
  • Azure Private Link は、Azure でホストされているサービスへのプライベート アクセスを提供します。 Azure Private Link サービスは、Private Link を使用するユーザー独自のサービスへの参照です。 Azure Standard Load Balancer の背後で実行されているサービスを Private Link アクセスに対して有効にすることができます。 その後、マネージド プライベート エンドポイントを使用して、Private Link サービスを Azure Synapse マネージド仮想ネットワークまで拡張できます。
  • Azure Synapse の Apache Spark は、Microsoft がクラウドに実装したいくつかの Apache Spark の 1 つです。 Azure Synapse では、Spark の機能を Azure に簡単に作成して構成できます。
  • Data Lake Storage は、Azure 上にエンタープライズ データ レイクを構築するための基盤として Azure Storage を使用します。
  • Key Vault では、強化されたセキュリティを使用してシークレット、キー、証明書を格納できます。
  • Azure ランディング ゾーンは、スケール、セキュリティ、ガバナンス、ネットワーク、ID を考慮したマルチサブスクリプション Azure 環境の出力です。 ランディング ゾーンは、Azure でのエンタープライズ規模の移行、最新化、イノベーションを可能にします。

シナリオの詳細

この記事では、Azure Synapse のスケーラブルでセキュリティの強化されたデプロイのために Azure ランディング ゾーンのサブスクリプションを準備するための手法について説明します。 このソリューションは、Azure のクラウド導入フレームワークのベスト プラクティスに準拠しており、エンタープライズ規模のランディング ゾーンの設計ガイドラインに焦点を当てています。

分散化された自律的なビジネス ユニットを持つ多くの大規模な組織は、大規模な分析とデータ サイエンスのソリューションを採用したいと考えています。 そのためには適切な基盤を構築することが重要です。 Azure Synapse と Data Lake Storage は、クラウド規模の分析とデータ メッシュ アーキテクチャを実装するための中心的なコンポーネントです。

この記事では、管理グループ、サブスクリプション トポロジ、ネットワーク、ID、セキュリティにまたがって Azure Synapse をデプロイするための推奨事項について説明します。

このソリューションを使用すると、次のことを実現できます。

  • ニーズに応じて複数のデータ ランディング ゾーンにスケーリングする、適切に管理され、セキュリティが強化された分析プラットフォーム。
  • データ アプリケーション チームの運用オーバーヘッドの削減。 データ エンジニアリングと分析に集中し、Azure Synapse プラットフォームの管理をデータ ランディング ゾーン運用チームに任せることができます。
  • データ ランディング ゾーン全体での組織のコンプライアンスを一元的に適用。

考えられるユース ケース

このアーキテクチャは、以下を必要とする組織で役立ちます。

  • Azure Synapse ワークロード用の、最初からすぐに使用できる、完全に統合された運用コントロールとデータ プレーン。
  • データのセキュリティとプライバシーに重点を置いた、Azure Synapse のセキュリティが強化された実装。

このアーキテクチャは、データ ランディング ゾーン サブスクリプション全体で Azure Synapse ワークロードを大規模にデプロイするための開始点として機能します。

サブスクリプションのトポロジ

大規模なデータと分析のプラットフォームを構築する組織は、時間の経過と同時に一貫して効率的にその取り組みをスケーリングする方法を探しています。

  • データ ランディング ゾーンのスケール ユニットとしてサブスクリプションを使用することで、組織はサブスクリプション レベルの制限を克服し、適切な分離とアクセス管理を確保し、データ プラットフォームのフットプリントに対して柔軟な将来の成長を実現できます。 データ ランディング ゾーン内では、リソース グループ内に、特定の分析ユース ケース用の Azure Synapse とその他のデータ資産をグループ化できます。
  • 管理グループとサブスクリプションを設定することは、Azure Synapse やその他のサービスをプロビジョニングするために必要なアクセス権をデータ プラットフォーム管理者に提供するランディング ゾーン プラットフォーム所有者の責任です。
  • すべての組織全体のデータ コンプライアンス ポリシーが管理グループ レベルで適用され、データ ランディング ゾーン全体にコンプライアンスが適用されます。

[Networking topology (ネットワーク トポロジ)]

仮想 WAN ネットワーク トポロジ (ハブアンドスポーク) を使用するランディング ゾーンの推奨事項については、「Virtual WAN のネットワーク トポロジ」を参照してください。 これらの推奨事項は、クラウド導入フレームワークベスト プラクティスに沿っています。

Azure Synapse のネットワーク トポロジに関するいくつかの推奨事項を次に示します。

  • マネージド仮想ネットワークを使用して、Azure Synapse リソースのネットワークの分離を実装します。 送信アクセスを承認されたターゲットのみに制限することで、データ流出保護を実装します。

  • 以下へのプライベート接続を構成します。

    • Data Lake Storage、Key Vault、Azure SQL などの Azure サービス (マネージド プライベート エンドポイント経由)。
    • セルフホステッド統合ランタイムを介した ExpressRoute 経由のオンプレミスのデータ ストアとアプリケーション。 セルフホステッド統合ランタイムを使用できない場合は、カスタム Private Link サービスを使用して、Spark リソースをオンプレミスのデータ ストアに接続します。
    • Synapse Studio (接続サブスクリプションにデプロイされているプライベート リンク ハブ経由)。
    • Log Analytics ワークスペース (接続サブスクリプションにデプロイされた Azure Monitor Private Link スコープ経由)。

ID 管理とアクセス管理

企業では通常、運用上のアクセスに最小特権のアプローチを使用します。 アクセス管理には、Microsoft Entra ID、Azure ロールベースのアクセス制御 (RBAC)、カスタム ロール定義を使います。

  • Azure Synapse で Azure ロール、Azure Synapse ロール、SQL ロール、Git アクセス許可を使用して、きめ細かいアクセス制御を実装します。 Azure Synapse ワークスペースのアクセス制御の詳細については、こちらの概要を参照してください。
  • Azure Synapse のロールは、さまざまなスコープで適用できるアクセス許可のセットを提供します。 この細分性により、管理者、開発者、セキュリティ担当者、およびオペレーターに対して、コンピューティング リソースとデータへの適切なアクセス権を簡単に付与できます。
  • 職務に合ったセキュリティ グループを使用することでアクセスの制御を簡素化できます。 アクセスを管理するには、適切なセキュリティ グループに対してユーザーを追加または削除するだけです。
  • ユーザー割り当てマネージド ID を使用して、Azure Synapse と他の Azure サービス (Data Lake Storage や Key Vault など) 間の通信にセキュリティを提供できます。 これにより、資格情報を管理する必要がなくなります。 マネージド ID は、アプリケーションが Microsoft Entra 認証をサポートするリソースに接続するときに使用できる ID を提供します。

アプリケーションの自動化と DevOps

  • Azure Synapse ワークスペースの継続的インテグレーションとデリバリーは、Git 統合と、ある環境 (開発、テスト、運用) から別の環境へのすべてのエンティティの昇格によって実現されます。
  • ワークスペース リソース (プールとワークスペース) を作成または更新する Bicep および Azure Resource Manager のテンプレートを使用して自動化を実装しします。 「Azure Synapse Analytics ワークスペースの継続的インテグレーションとデリバリー」で説明されているように、Azure DevOps または GitHub の Synapse ワークスペース デプロイ ツールを使用して、SQL スクリプトやノートブック、Spark ジョブ定義、パイプライン、データセット、その他の成果物などを移行します。

考慮事項

これらの考慮事項は、ワークロードの品質向上に使用できる一連の基本原則である Azure Well-Architected Framework の要素を組み込んでいます。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。 詳細については、「信頼性の重要な要素の概要」を参照してください。

  • Azure Synapse、Data Lake Storage、Key Vault は、高可用性と回復性が組み込まれたマネージド型のサービスとしてのマネージド プラットフォーム (PaaS) サービスです。 冗長ノードを使用して、アーキテクチャ内のセルフホステッド統合ランタイムと NAT VM を高可用性にすることができます。
  • サービス レベル アグリーメント (SLA) の情報については、「Azure Synapse Analytics の SLA」を参照してください。
  • Azure Synapse の事業継続とディザスター リカバリーに関する推奨事項については、「Azure Synapse Analytics のデータベースの復元ポイント」を参照してください。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティの重要な要素の概要」を参照してください。

コスト最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させることです。 詳しくは、コスト最適化の柱の概要に関する記事をご覧ください。

  • 分析リソースは Data Warehouse ユニット (DWU) で測定され、CPU、メモリ、および IO が追跡されます。 小さい DWU から開始し、大量のデータの読み込みや変換など、リソースを集中的に使用する操作のパフォーマンスを測定することをお勧めします。 そうすることで、ワークロードを最適化するために必要なユニット数を決定できます。
  • 事前に購入した Azure Synapse コミット ユニット (SKU) を使用して、従量課金制の料金でコストを節約できます。
  • 価格オプションを調べて、Azure Synapse 実装のコストを見積もるには、「Azure Synapse Analytics の価格」を参照してください。
  • この価格見積もりには、次のセクションで説明する自動化手順を使用してサービスをデプロイするためのコストが含まれています。

このシナリオのデプロイ

前提条件: Azure アカウントが必要です。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。

このシナリオのすべてのコードは、GitHub の Synapse Enterprise Codebase リポジトリで入手できます。

自動デプロイでは、Bicep テンプレートを使用して次のコンポーネントをデプロイします。

  • リソース グループ
  • 仮想ネットワークとサブネット
  • プライベート エンドポイントを使用するストレージ層 (Bronze、Silver、Gold)
  • マネージド仮想ネットワークを使用する Azure Synapse ワークスペース
  • Private Link サービスとエンドポイント
  • ロード バランサーと NAT VM
  • セルフホステッド統合ランタイム リソース

デプロイを調整するための PowerShell スクリプトがリポジトリに用意されています。 この PowerShell スクリプトを実行するか、pipeline.yml ファイルを使用して Azure Devops のパイプラインとしてデプロイできます。

Bicep テンプレート、デプロイ手順、前提条件の詳細については、readme ファイルを参照してください。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパルの作成者:

  • Vidya Narasimhan | プリンシパル クラウド ソリューション アーキテクト
  • Sabyasachi Samaddar | シニア クラウド ソリューション アーキテクト

その他の共同作成者:

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の手順

この記事で説明しているサービスの詳細については、次のリソースを参照してください。