Azure へのメインフレームデータのレプリケートと同期

Azure Data Factory

Azure Databricks

このアーキテクチャ例では、Azure への最新化中にデータをレプリケートおよび同期するための実装計画を概説しています。データストア、ツール、サービスなどの技術的な側面について説明します。

Architecture

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

メインフレームとミッドレンジのシステムにより、オンプレミスのアプリケーションデータベースが一定の間隔で更新されます。整合性を維持するため、ソリューションによって最新のデータが Azure データベースと同期されます。同期プロセスには以下の手順が含まれます。

Azure Data Factory の動的なパイプラインにより、データ抽出からデータ読み込みまでの範囲のアクティビティが調整されます。パイプラインのアクティビティをスケジュールしたり、手動で開始したり、自動的にトリガーしたりできます。

パイプラインを使用して、タスクを実行するアクティビティがグループ化されます。データを抽出するため、Data Factory によってオンプレミスのテーブルごとに 1 つのパイプラインが動的に作成されます。その後、Azure でデータをレプリケートするときに、超並列実装を使用できます。要件を満たすようにソリューションを構成することもできます。
- 完全なレプリケーション: データベース全体をレプリケートし、ターゲットの Azure データベースのデータ型とフィールドに必要な変更を行います。
- 部分、差分、または増分レプリケーション: ソーステーブルの基準値列を使用して、更新された行を Azure データベースと同期します。これらの列には、連続してインクリメントされるキーか、テーブルの最終更新を示すタイムスタンプが含まれます。
Data Factory のパイプラインは、次の変換タスクにも使用されます。
- データ型の変換
- データの操作
- データの書式設定
- 列の派生
- データのフラット化
- データの並べ替え
- データのフィルタリング
Db2 zOS、Db2 for i、Db2 LUW などのオンプレミスのデータベースにアプリケーションデータが格納されます。
セルフホステッド統合ランタイム (SHIR) により、Data Factory でアクティビティの実行とディスパッチのために使用される環境が提供されます。
Azure Data Lake Storage Gen2 と Azure Blob Storage により、データのステージングのための場所が提供されます。このステップは、複数のソースからデータを変換およびマージするために必要になることがあります。
データの準備のために、Data Factory により、Azure Databricks、カスタムアクティビティ、パイプラインデータフローを使用して、すばやく効率的にデータが変換されます。
Data Factory により、次のリレーショナルおよび非リレーショナルの Azure データベースにデータが読み込まれます。
- Azure SQL
- Azure Database for PostgreSQL
- Azure Cosmos DB
- Azure Data Lake Storage
- Azure Database for MySQL
SQL Server Integration Services (SSIS): このプラットフォームを使用すると、データの抽出、変換、読み込みを行うことができます。
オンプレミスデータゲートウェイは、ローカルにインストールされた Windows クライアントアプリケーションであり、ローカルのオンプレミスデータソースと Azure のサービスの間のブリッジとして機能します。
Microsoft Fabric のデータパイプラインは、Db2 から Azure ストレージとデータベースへのデータインジェストを実行するアクティビティの論理的なグループです。
Microsoft 以外のツール: ソリューションでほぼリアルタイムのレプリケーションが必要な場合は、Microsoft 以外のツールを使用できます。

コンポーネント

このセクションでは、データの最新化、同期、統合中に使用できるその他のツールについて説明します。

ツール

Microsoft Service for Distributed Relational Database Architecture (DRDA) は Host Integration Server (HIS) のコンポーネントです。 DRDA 用 Microsoft サービスは、DRDA アプリケーションリクエスター (AR) クライアントによって使用されるアプリケーションサーバーです。 IBM DB2 for z/OS や DB2 for i5/OS は DRDA AR クライアントの例です。これらのクライアントにより、アプリケーションサーバーを使用して DB2 SQL ステートメントが変換され、SQL Server 上で実行されます。
SQL Server Migration Assistant (SSMA) for Db2 は、Db2 から Microsoft データベースサービスへの移行を自動化します。仮想マシン (VM) 上で実行されている間、このツールは Db2 データベースオブジェクトを SQL Server データベースオブジェクトに変換し、それらのオブジェクトを SQL に作成します。

データインテグレーター

Data Factory は、ハイブリッドデータ統合サービスです。このフルマネージドのサーバーレスソリューションを使用して、抽出、変換、読み込み (ETL) ワークフローの作成、スケジュール設定、調整、ETL ワークフローの抽出、読み込み、変換を行うことができます。
Azure Synapse Analytics は、データウェアハウスやビッグデータシステム全体にわたって分析情報を取得する時間を早めるエンタープライズ分析サービスです。 Azure Synapse Analytics は次のテクノロジとサービスの長所を兼ね備えています。
- エンタープライズデータウェアハウスで使用される SQL テクノロジ。
- ビッグデータに使用される Spark テクノロジ。
- ログおよび時系列分析に使用される Azure Data Explorer。
- データ統合、ETL、および ELT ワークフローに使用される Azure Pipelines。
- Power BI、Azure Cosmos DB、Machine Learning などの他の Azure サービスとの緊密な統合機能。
SSIS は、エンタープライズレベルのデータ統合および変換ソリューションを構築するためのプラットフォームです。 SSIS を使用して、データの管理、レプリケート、クレンジング、マイニングを行うことができます。
Azure Databricks はデータ分析プラットフォームです。 Apache Spark オープンソース分散処理システムに基づいており、Azure クラウドプラットフォーム向けに最適化されています。分析ワークフローでは、Azure Databricks によって複数のソースからデータが読み取られ、Spark を使用して分析情報が提供されます。

データストレージ

SQL Database は Azure SQL ファミリの一部であり、クラウド向けに構築されています。このサービスは、フルマネージドで常に最新のサービスとしてのプラットフォーム (PaaS) の利点を備えています。 SQL Database は、パフォーマンスと持続性を最適化する、AI を活用した自動機能も備えています。サーバーレスコンピューティングとハイパースケールストレージオプションにより、リソースが必要に応じて自動的にスケーリングされます。
Azure SQL Managed Instance は、Azure SQL サービスポートフォリオに含まれています。このインテリジェントでスケーラブルなクラウドデータベースサービスは、幅広い SQL Server エンジンとの互換性と、フルマネージドの常に最新の PaaS のすべての利点を兼ね備えています。 SQL Managed Instance を使用すると、既存のアプリを大規模に最新化できます。
Azure Virtual Machines 上の SQL Server により、100% のコード互換性で SQL Server ワークロードをクラウドにリフトアンドシフトする手段が提供されます。 Azure SQL ファミリの一部である SQL Server on Azure Virtual Machines は、SQL Server のパフォーマンス、セキュリティ、分析機能と、Azure の柔軟性およびハイブリッド接続性を兼ね備えています。 SQL Server on Azure Virtual Machines を使用して、既存のアプリを移行したり、新しいアプリを構築したりできます。また、SQL Server 2019 など、SQL Server の最新の更新プログラムとリリースにアクセスすることもできます。
Azure Database for PostgreSQL は、オープンソースの PostgreSQL データベースエンジンのコミュニティエディションに基づくフルマネージドリレーショナルデータベースサービスです。このサービスを使用して、データベースの管理ではなくアプリケーションのイノベーションに集中できます。ワークロードをすばやく簡単にスケーリングすることもできます。
Azure Cosmos DB は、グローバル分散型のマルチモデルデータベースです。 Azure Cosmos DB を使用して、任意の数のリージョンにまたがって、ソリューションのスループットとストレージを弾力的かつ個別にスケーリングできます。このフルマネージドの NoSQL データベースサービスは、世界中の 99 パーセンタイルで 1 桁、ミリ秒の待機時間を保証します。
Data Lake Storage は、大量のデータを未加工のネイティブ形式で保持するストレージリポジトリです。データレイクストアは、テラバイト級およびペタバイト級のデータにスケーリングできるように最適化されています。通常、データは、構造化データ、半構造化データ、または非構造化データを含む複数の異種ソースから取得されます。 Data Lake Storage Gen2 は、Azure Data Lake Storage Gen1 の機能と Blob Storage が結合されたものです。この次世代データレイクソリューションからは、ファイルシステムのセマンティクス、ファイルレベルのセキュリティ、およびスケールが提供されます。また、Blob Storage の階層型ストレージ、高可用性、ディザスターリカバリーの機能も提供されます。
Microsoft Fabric は、エンタープライズ対応のエンドツーエンドの分析プラットフォームです。データ移動、データ処理、インジェスト、変換、リアルタイムイベントルーティング、レポート作成を統合します。これらの機能は、データエンジニアリング、Data Factory、データサイエンス、Real-Time Analytics、Data Warehouse、データベースなどの統合サービスでサポートされています。
Azure Database for MySQL は、オープンソースの MySQL データベースエンジンのコミュニティエディションに基づくフルマネージドリレーショナルデータベースサービスです。

シナリオの詳細

データの可用性と整合性はメインフレームとミッドレンジの最新化に不可欠です。データ優先戦略は、Azure への移行中にデータの完全性と可用性を維持するのに役立ちます。最新化中に処理が中断されないようにするには、データをすばやくレプリケートするか、オンプレミスのデータと Azure データベースを同期させることが、必要になる場合があります。

具体的には、次のものがこのソリューションの対象になります。

抽出: ソースデータベースへの接続とそこからの抽出。
変換:
- ステージング: 元の形式でのデータの一時的な格納と、変換のための準備。
- 準備: ターゲットデータベースの要件を満たすマッピング規則を使用した、データの変換と操作。
読み込み: ターゲットデータベースへのデータの挿入。

考えられるユースケース

このソリューションによってメリットのあるデータレプリケーションと同期のシナリオは次のとおりです。

Azure を使用してすべての問い合わせチャネルを処理するコマンドクエリ責務分離 (CQRS) アーキテクチャ。
オンプレミスのアプリケーションと再ホストまたは再設計されるアプリケーションを並行してテストする環境。
段階的な修復や最新化が必要な密接に結合されたアプリケーションが含まれるオンプレミスシステム。

推奨事項

Data Factory を使用してデータを抽出する場合は、コピーアクティビティのパフォーマンスを調整するための手順を実行します。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

このアーキテクチャを検討するときは、次の点に留意してください。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。詳細については、「信頼性設計レビューチェックリスト」を参照してください。

可用性を含むインフラストラクチャ管理は、Azure のデータベースで自動化されています。
DRDA 用 Microsoft サービスのフェールオーバー保護については、「プーリングとフェールオーバー」を参照してください。
オンプレミスデータゲートウェイと Integration Runtime (IR) をクラスター化して、高可用性を担保できます。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。詳細については、「セキュリティ設計レビューチェックリスト」を参照してください。

ネットワークセキュリティグループを使用して、各サービスの機能に必要なアクセスのみを許可するように制限します。
PaaS サービスには、プライベートエンドポイントを使用します。サービスのセキュリティの補完には、インターネットからの接続を選択的に制御するサービスファイアウォールを使用します。
コンポーネント間のデータフローにはマネージド ID を使用します。
DRDA 用 Microsoft サービスでサポートされるクライアント接続の種類については、「DRDA 用 Microsoft サービスを使用したソリューションの計画と設計」を参照してください。クライアント接続は、ネットワーク上のトランザクション、プール、フェールオーバー、認証、暗号化の性質に影響します。

コストの最適化

コストの最適化は、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳細については、「コストの最適化設計レビューチェックリスト」を参照してください。

価格モデルは、コンポーネントサービスによって異なります。利用可能なコンポーネントサービスの価格モデルを確認して、それらのモデルが予算に合っていることを確認します。
このソリューションの実装コストを見積もるには、Azure 料金計算ツールを使用します。

オペレーショナルエクセレンス

オペレーショナルエクセレンスは、アプリケーションをデプロイし、運用環境で実行し続ける運用プロセスを対象としています。詳細については、「オペレーショナルエクセレンス設計レビューチェックリスト」を参照してください。

スケーラビリティを含むインフラストラクチャ管理は、Azure のデータベースで自動化されています。
アクティブ - アクティブモードで論理インスタンスをオンプレミスの複数のマシンに関連付けることにより、セルフホステッド IR をスケールアウトすることができます。

パフォーマンス効率

パフォーマンス効率は、ユーザーの要求を効率的に満たすワークロードの機能です。詳細については、「パフォーマンス効率設計レビューチェックリスト」を参照してください。

初期レプリケーションまたは変更されたデータの継続的なレプリケーションのために大きな帯域幅を使用する実装の場合は、高スケールのオプションとして Azure ExpressRoute を検討します。
シナリオに合った適切な IR 構成を選択します。

次のステップ

詳細については、Azure データエンジニアリング - オンプレミスの最新化に問い合わせてください。
移行ガイドを確認します。

次の方法で共有

Azure へのメインフレームデータのレプリケートと同期

Architecture

ワークフロー

コンポーネント

ツール

データインテグレーター

データストレージ

シナリオの詳細

考えられるユースケース

推奨事項

考慮事項

[信頼性]

セキュリティ

コストの最適化

オペレーショナルエクセレンス

パフォーマンス効率

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure へのメインフレーム データのレプリケートと同期

Architecture

ワークフロー

コンポーネント

ツール

データ インテグレーター

データ ストレージ

シナリオの詳細

考えられるユース ケース

推奨事項

考慮事項

[信頼性]

セキュリティ

コストの最適化

オペレーショナル エクセレンス

パフォーマンス効率

次のステップ

関連リソース

フィードバック

その他のリソース

Azure へのメインフレームデータのレプリケートと同期

データインテグレーター

データストレージ

考えられるユースケース

オペレーショナルエクセレンス