編集

次の方法で共有


Qlik を使用した Azure へのメインフレームとミッドレンジのデータ レプリケーション

Azure Event Hubs
Azure Data Lake
Azure Databricks

このソリューションでは、Qlik のオンプレミス インスタンスを使用して、オンプレミスのデータ ソースを Azure にリアルタイムでレプリケートします。

注意

"Qlik" は "click (クリック)" のように発音します。

Apache® および Apache Kafka® は、米国およびその他の国における Apache Software Foundation の登録商標または商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

アーキテクチャ

Qlik を使用した Azure へのデータ移行のアーキテクチャ。

このアーキテクチャの Visio ファイルをダウンロードします。

ワークフロー

  1. ホスト エージェント: オンプレミス システム上のホスト エージェントは、Db2、IMS (情報管理システム)、および VSAM (仮想ストレージ アクセス方法) データ ストアからの変更ログ情報をキャプチャし、Qlik レプリケーション サーバーに渡します。
  2. レプリケーション サーバー: Qlik Replication サーバー ソフトウェアによって、変更ログ情報が Kafka と Azure Event Hubs に渡されます。 この例の Qlik はオンプレミスですが、代わりに Azure の仮想マシンにデプロイできます。
  3. ストリームのインジェスト: Kafka と Event Hubs によって、変更ログ情報を受信して保存するためのメッセージ ブローカーが提供されます。
  4. Kafka Connect: Kafka Connect API は、Azure Data Lake Storage、Azure Databricks、Azure Synapse Analytics などの Azure データ ストアを更新するために Kafka からデータを取得するために使用されます。
  5. Data Lake Storage: Data Lake Storageは、変更ログ データのステージング領域です。
  6. Databricks: Databricks によって、変更ログ データが処理され、Azure 上の対応するファイルが更新されます。
  7. Azure データ サービス: Azure では、次のようなさまざまな効率的なデータ ストレージ サービスが提供されます。
    • リレーショナル データベース サービス:

      • Azure Virtual Machines 上の SQL Server
      • Azure SQL データベース
      • Azure SQL Managed Instance
      • Azure Database for PostgreSQL
      • Azure Database for MySQL
      • Azure Cosmos DB

      データストレージの選択を行う際には、ワークロードの種類、複数データベースにまたがるクエリ、2 フェーズ コミットの要件、ファイル システムにアクセスする機能、データ量、必要なスループット、待機時間など、考慮すべき多くの要因があります。

    • Azure 非リレーショナル データベース サービス: Azure Cosmos DB (NoSQL データベース) により、迅速な応答、自動スケーラビリティ、あらゆるスケールで保証された速度が提供されます。

    • Azure Synapse Analytics: Synapse Analytics は、データ統合、エンタープライズ データ ウェアハウス、ビッグ データ分析を 1 つにまとめた分析サービスです。 これを使用すると、サーバーレスまたは専用のリソースを大規模に使用してデータに対してクエリを実行できます。

    • Microsoft Fabric: Microsoft Fabric は、企業向けのオールインワン分析ソリューションです。 データ移動から Data Science、Real Time Analytics、ビジネス インテリジェンスまで、あらゆるものをカバーしています。 これはデータ レイク、データ エンジニアリング、データ統合など、包括的なサービス スイートを提供します。

コンポーネント

このアーキテクチャは、複数の Azure Cloud Services で構成され、リソースの 4 つのカテゴリ (ネットワークと ID、アプリケーション、ストレージ、監視) に分かれています。 以下のセクションでは、それぞれのサービスとその役割について説明します。

ネットワークと ID

アプリケーション アーキテクチャを設計するときは、パブリック インターネットまたはプライベート接続を介した対話中にセキュリティ、パフォーマンス、および管理性を確保するために、ネットワークコンポーネントと ID コンポーネントに優先順位を付ける必要があります。

  • Azure ExpressRoute により、接続プロバイダーが提供するプライベート接続を介して、オンプレミス ネットワークが Microsoft が提供するクラウド サービスへと拡張されます。 ExpressRoute を使用すると、Microsoft Azure、Office 365 などのクラウド サービスへの接続を確立できます。
  • Azure VPN Gateway は、パブリック インターネットを介して Azure 仮想ネットワークとオンプレミスの場所の間で暗号化されたトラフィックを送信する特定の種類の仮想ネットワーク ゲートウェイです。
  • Microsoft Entra ID は、オンプレミスのアクティブ ディレクトリと同期できる ID とアクセスの管理サービスです。

アプリケーション

Azure には、セキュリティで保護されたスケーラブルで効率的なアプリケーションのデプロイをサポートすることを目的としたマネージド サービスが用意されています。 アーキテクチャに記載されているアプリケーション層サービスは、最適なアプリケーション アーキテクチャの実現に貢献できます。

  • Azure Event Hubs は、Db2、IMS、VSAM の変更データ メッセージを格納できるビッグ データ ストリーミング プラットフォームおよびイベント インジェスト サービスです。 1 秒間に何百万ものメッセージを受信して処理することができます。 イベント ハブに送信されたデータは、リアルタイム分析プロバイダーやカスタム アダプターを使用して、変換および保存できます。
  • Apache Kafka は、高パフォーマンスのデータ パイプライン、ストリーミング分析、データ統合、ミッション クリティカルなアプリケーションに使用されるオープンソースの分散イベント ストリーミング プラットフォームです。 これは、Qlik データ統合と簡単に統合して、Db2 変更データを格納できます。
  • Azure Data Lake Storage Azure Data Lake Storage により、処理されたオンプレミスの変更ログ データを格納するためのデータ レイクが提供されます。
  • Azure Databricks は、Apache Spark 上に構築されたクラウドベースのデータ エンジニアリング ツールです。 これにより大量のデータを処理して変換できます。 機械学習モデルを使用してデータを探索できます。 ジョブは、R、Python、Java、Scala、Spark SQL で記述できます。

ストレージとデータベース

このアーキテクチャは、スケーラブルで安全なクラウド ストレージと、柔軟でインテリジェントなデータ管理のためのマネージド データベースに対応します。

  • Azure Storage は、データ、アプリ、およびワークロード向けの、非常にスケーラブルで安全なクラウド サービスのセットです。 これには、 Azure FilesAzure Table StorageAzure Queue Storageが含まれます。 Azure Files は、多くの場合、メインフレーム ワークロードを移行するための効果的なツールです。
  • Azure SQL は、アプリケーションの移行、モダン化、および開発のための柔軟なオプションを提供する、SQL のクラウド データベースのファミリです。 ファミリには次のものが含まれます。
  • Azure Cosmos DB は、MongoDB および Cassandra 用のオープンソース API を備えたフル マネージド NoSQL データベース サービスです。 考えられるアプリケーションは、メインフレームの表形式以外のデータを Azure に移行することです。
  • Azure Database for PostgreSQL は、Azure サービスとのネイティブ接続を持つ、インテリジェントでスケーラブルなフル マネージド PostgreSQL です。
  • Azure Database for MySQL は、スケーラブルなフル マネージド MySQL データベースです。
  • Azure Cosmos DB は、MongoDB および Cassandra 用のオープンソース API を備えたフル マネージド NoSQL データベース サービスです。 考えられるアプリケーションは、メインフレームの表形式以外のデータを Azure に移行することです。

監視

監視ツールは、包括的なデータ分析と、アプリケーションのパフォーマンスに関する貴重な分析情報を提供します。

  • Azure Monitor により、クラウドおよびオンプレミス環境のテレメトリが収集、分析され、対応する包括的なソリューションが提供されます。 次の情報が含まれます。
    • Application Insights: テレメトリを分析および表示するため。
    • Monitor ログ: 監視対象のリソースからログとパフォーマンス データを収集して整理します。 Azure プラットフォーム ログ、VM エージェント、アプリケーション パフォーマンスなどのソースからのデータを 1 つのワークスペースに組み合わせて分析できます。 使用されるクエリ言語を使用すると、レコードを分析できます。
    • Log Analytics: Monitor ログに対してクエリを実行できます。 強力なクエリ言語により、複数のテーブルのデータを結合したり、大量のデータ セットを集約したり、最小限のコードによって複雑な操作を実行したりできます。

代替

  • 図には、オンプレミスにインストールされた Qlik が示されています。これはオンプレミスのデータ ソースに近い場所に Qlik を維持する場合に推奨されるベスト プラクティスです。 別の方法は、Azure 仮想マシンにクラウドの Qlik をインストールすることです。
  • Qlik データ統合を使用すると、Kafka やイベント ハブを経由することなく、Databricks に直接配信できます。
  • Qlik データ統合を Azure Cosmos DB に直接レプリケートすることはできませんが、イベント ソーシング アーキテクチャを使って Azure Cosmos DB をイベント ハブと統合できます。

シナリオの詳細

多くの組織では、メインフレームとミッドレンジのシステムを使用して、要求の厳しい重要なワークロードを実行しています。 ほとんどのアプリケーションでは、多くの場合、複数のシステムで共有データベースを使用します。 このような環境でクラウドに最新化することは、オンプレミスのデータをクラウドベースのアプリケーションに提供する必要があることを意味します。 そのため、データ レプリケーションは、最新化の重要な戦術になります。

Qlik データ統合プラットフォームには、データ レプリケーションを実行する Qlik Replication が含まれています。 これは変更データ キャプチャ (CDC) を使用して、オンプレミスのデータ ストアを Azure にリアルタイムでレプリケートします。 変更データは、Db2、IMS、VSAM の変更ログから取得できます。 このレプリケーション手法により、バッチの一括読み込みが不要になります。 このソリューションでは、Qlik のオンプレミス インスタンスを使用して、オンプレミスのデータ ソースを Azure にリアルタイムでレプリケートします。

考えられるユース ケース

このソリューションは、次の場合に適しています。

  • メインフレームまたはミッドレンジのシステムから Azure データベースへのデータ変更のレプリケーションを必要とするハイブリッド環境。
  • ダウンタイムをほとんど発生させることのない、Db2 から Azure SQL データベースへのオンライン データベース移行。
  • 統合と分析のために、さまざまなオンプレミス データ ストアから Azure へのデータ レプリケーション。

考慮事項

以降の考慮事項には、ワークロードの品質向上に使用できる一連の基本原則である Azure "Well-Architected Framework" の要素が組み込まれています。 詳細については、「Microsoft Azure Well-Architected Framework」を参照してください。

[信頼性]

信頼性により、顧客に確約したことをアプリケーションで確実に満たせるようにします。 詳細については、「信頼性設計レビューチェックリスト」を参照してください。

  • Qlik データ統合は、高可用性クラスターで構成できます。
  • Azure データベース サービスはゾーンの冗長性をサポートしており、障害が発生した場合やメンテナンス期間中にセカンダリ ノードにフェールオーバーするように設計できます。

セキュリティ

セキュリティは、重要なデータやシステムの意図的な攻撃や悪用に対する保証を提供します。 詳細については、「セキュリティ設計レビューチェックリスト」を参照してください。

  • Azure ExpressRoute では、オンプレミスから Azure へのプライベートで効率的な接続が提供されますが、代わりにサイト間 VPN 使用できます。
  • Azure リソースは Microsoft Entra ID を使用して認証でき、アクセス許可はロールベースのアクセス制御によって管理されます。
  • Azure Database サービスでは、次のようなさまざまなセキュリティ オプションがサポートされています。
    • 保存時のデータの暗号化。
    • 動的なデータ マスキング。
    • Always Encrypted データベース。
  • セキュリティで保護されたソリューションの設計に関する一般的なガイダンスについては、「Azure のセキュリティのドキュメント」を参照してください。

コストの最適化

コストの最適化は、不要な費用を削減し、運用効率を向上させる方法を検討することです。 詳細については、「コストの最適化設計レビューチェックリスト」を参照してください。

実際の実装のコストを見積もるには、Azure 料金計算ツールを使用します。

オペレーショナル エクセレンス

オペレーショナル エクセレンスは、アプリケーションをデプロイし、運用環境で実行し続ける運用プロセスを対象としています。 詳細については、「オペレーショナル エクセレンス設計レビュー チェックリスト」を参照してください。

  • Monitor の Application Insights 機能と Log Analytics 機能を組み合わせて、Azure リソースの正常性を監視できます。 事前に管理できるようにアラートを設定できます。

パフォーマンス効率

パフォーマンス効率は、効率的な方法でユーザーの要求に合わせてワークロードをスケーリングする機能です。 詳細については、「パフォーマンス効率設計レビュー チェックリスト」を参照してください。

Databricks、Data Lake Storage、およびその他の Azure データベースには自動スケール機能があります。 詳細については、自動スケーリングのページを参照してください。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Nithish Aruldoss | エンジニアリング アーキテクト
  • Ashish Khandelwal | プリンシパル エンジニアリング アーキテクチャ マネージャー

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ