SAP データ統合のアーキテクチャ例
この記事は、「SAP データの拡張とイノベーション: ベスト プラクティス」シリーズの一部です。
- SAP データ ソースを特定する
- 最適な SAP コネクタの選択
- SAP データ抽出のパフォーマンスとトラブルシューティング
- SAP on Azure のデータ統合セキュリティ
- SAP データ統合の汎用アーキテクチャ
この記事では、ソース SAP システムからダウンストリーム ターゲットへの SAP データのフローについて説明します。 各ターゲットは、企業のデータ体験において目的を果たします。 アーキテクチャ設計は、Azure Data Services を使用して SAP ソリューションを拡張します。 Azure Synapse Analytics を使用して、さまざまなソースからのデータの取り込み、処理、格納、提供、視覚化を行うための最新のデータ プラットフォームを構築します。
Apache Spark® および Apache Kafka® は、米国およびその他の国における Apache Software Foundation の登録商標または商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。
アーキテクチャ
次の図は、Azure での SAP データ統合のアーキテクチャの例です。 このアーキテクチャ例を開始点として使用します。
このアーキテクチャの Visio ファイルをダウンロードします。
データフロー
次のデータフローは前の図に対応しています。
- データ ソース: システムはデータ ソースに接続して、データの取り込みと分析を可能にします。
- データ インジェスト。 Azure Data Factory と Synapse パイプラインにより、データ統合が可能になります。
- データ ストレージ。 データは、Azure Blob Storage 上に構築された Azure Data Lake Storage に保存されます。
- データの変換と消費。 データは段階的に変換され、Power BI を使用したレポート、またはプライベート リンク経由でデータに安全にアクセスできるプライベート エンドポイントを通じて使用できるようになります。
- データの視覚化とレポート作成。 Power BI サービスまたは外部アプリケーションを使用して、レポートにアクセスし、データを視覚化できます。
データ ソース
ソース SAP システムは、SAP RISE on Azure または SAP on Azure Virtual Machines を使用してオンプレミスで実行できます。 これらは、オンプレミスの SQL サーバー、JSON、XML、ログ ファイルの半構造化データ、またはその他のデータ ウェアハウス システムです。 Synapse パイプラインのコピー アクティビティでは、この生データを取り込むことができます。 ソース システムは、オンプレミス、プライベート クラウドまたはパブリック クラウド、または SAP RISE サブスクリプションでホストされます。
SAP オンライン トランザクション データ処理 (OLTP) およびオンライン分析処理 (OLAP) システムは、ビジネス データとトランザクションの中央リポジトリです。 データを抽出、保存、Azure に取り込み、これらのビジネス データ リポジトリに存在するデータから価値と分析情報を取得します。
Azure サービスを使用すると、あらゆるソースの場所からデータを統合できます。 ホストされている場所、セキュリティ制御、運用標準、帯域幅、契約上の義務に基づいて抽出構成を計画します。
データ インジェスト
このアーキテクチャでは、データは Synapse パイプラインを使用して取り込まれ、Synapse Spark プールの Data Lake 機能を使用して段階的に処理されます。
Data Factory と Synapse パイプラインは、次の SAP コネクタを使用してデータを抽出します。
- Open Hub を介した SAP Business Warehouse
- 多次元式 (MDX) を使用した SAP Business Warehouse
- SAP 変更データ キャプチャ (CDC) コネクタ
- SAP Cloud for Customer
- SAP ERP Central Component (ECC)
- SAP HANA
- SAP テーブル
詳細については、次のリソースを参照してください。
データ ストレージ
Data Lake Storage Gen2 では、Azure Storage は、Azure 上にエンタープライズ データ レイクを構築するための基盤です。 Data Lake Storage Gen2 を使用すると、数百ギガビットのスループットを維持しながら数ペタバイトの情報を処理できるため、大量のデータを管理できます。
データは、データ レイクに取り込まれた後、保存時に暗号化されます。 カスタマー マネージド キーを使用すると、暗号化をさらに強化し、アクセス制御の柔軟性を高めることができます。
詳細については、「Data Lake Storage Gen2 の概要とベスト プラクティス」を参照してください。
データの変換と消費
このアーキテクチャでは、データ ソースから取り込まれたデータは Data Lake Storage Gen2 の場所に保存されます。
セルフホステッド統合ランタイム (SHIR) を使用すると、オンプレミス環境のデータ ストアとクラウドの間でコピー アクティビティを管理および実行できます。 SHIR システムは常にソース システムの近くに置いてください。
Bronze、Silver、Gold などのステージ固有の Data Lake Storage Gen2 ディレクトリを使用して、ストレージ アカウントにデータを保存します。
- Bronze: Synapse パイプラインのコピー アクティビティは、ソース システムからデータを取り込みます。 この取り込まれたデータは、データ レイクの Bronze ディレクトリを使用して生の形式で保存されます。
- Silver: Synapse Spark プールは、データ品質ルールを実行して生データをクレンジングします。 この強化されたデータは、データ レイクの Silver ディレクトリに保存されます。
- Gold: クレンジング プロセスの後、Spark プールは必要な正規化、データ変換、ビジネス ルールを Silver ディレクトリ データに適用します。 この変換されたデータは、データ レイクの Gold ディレクトリに保存されます。
Synapse Apache Spark から Synapse SQL へのコネクタは、ダウンストリーム アプリケーションやレポート サービス (Power BI など) で使用するために、正規化されたデータを Synapse SQL プールにプッシュします。 このコネクタは、サーバーレス Apache Spark プールと Azure Synapse Analytics ワークスペース内の SQL プールとの間でデータを最適に転送します。
ストレージ アカウントの場合、プライベート エンドポイントは、仮想ネットワーク上の顧客にプライベート リンクを介したデータへの安全なアクセスを提供します。 プライベート エンドポイントは、ストレージ アカウント サービスの仮想ネットワーク アドレス空間の IP アドレスを使用します。 仮想ネットワーク上の顧客とストレージ アカウント間のネットワーク トラフィックは、仮想ネットワークと Microsoft バックボーン ネットワーク上のプライベート リンクを経由して、パブリック インターネットへの露出を排除します。
データの視覚化とレポート作成
Power BI サービスでは、DirectQuery を使用して Synapse SQL プールからデータを安全に取得します。
プライベート仮想ネットワーク上の仮想マシンにインストールされたデータ ゲートウェイは、Power BI サービスと Synapse SQL プール間の接続プラットフォームを提供します。 安全に接続するために、データ ゲートウェイは同じ仮想ネットワーク内のプライベート エンドポイントを使用します。
外部アプリケーションは、仮想ネットワークに接続されたプライベート エンドポイントを使用して、Synapse サーバーレス プールまたは専用 SQL プールのデータにアクセスできます。
コンポーネント
このアーキテクチャでは、いくつかの Azure サービスと機能が使用されます。
データ分析
- Azure Synapse Analytics は、データを取り込み、処理し、分析するコア サービスです。
- Data Lake Storage Gen2 はストレージ サービス上に構築されており、他のサービスがデータを保存および処理するときに使用するデータ レイク機能を提供します。
- Azure Synapse Analytics パイプライン は、ソースから Data Lake Storage Gen2 の場所にデータをコピーします。
- Apache Spark は、ソースの場所から取り込まれたデータをクレンジング、正規化、処理します。
記憶域
- Azure Synapse Analytics 専用 SQL プールは、データが処理および正規化され、顧客やアプリケーションが使用できる状態になった後にデータ ウェアハウジング機能を提供します。
- Azure Synapse Analytics サーバーレス SQL プールを使用すると、処理および正規化されたデータを迅速にクエリおよび分析できます。
ネットワークとロード バランサー
- Azure Synapse Analytics マネージド仮想ネットワークは、Azure Synapse ワークスペース用に分離された管理された環境を作成するため、ワークスペース リソースのネットワーク構成を管理する必要はありません。
- Azure Synapse マネージド プライベート エンドポイントは、Azure リソースへのプライベート リンクを確立し、Microsoft バックボーン ネットワークを使用して、Azure Synapse ワークスペースと他の Azure リソース間のトラフィックをルーティングします。
- Azure Virtual Network は、Azure Synapse ワークスペースに属さない Azure リソースにプライベート ネットワーク機能を提供します。 アクセス、セキュリティ、リソース間のルーティングを管理できます。
- Azure プライベート エンドポイントは、ソリューションの仮想ネットワークから Azure マネージド サービスへのプライベート IP アドレスを使用して、サービスを仮想ネットワークに接続します。 この接続により、Azure Synapse ワークスペースと、Storage、Azure Cosmos DB、Azure SQL Database、または独自の Azure Private Link サービスなどの他の Azure サービスとの間のネットワークが保護されます。
レポート
- Power BI は、処理されたデータの高度な分析と分析情報を実行します。