編集

次の方法で共有


Azure Databricks を使用して最新の分析アーキテクチャを作成する

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake Storage

ソリューションのアイデア

この記事ではソリューションのアイデアについて説明します。 クラウド アーキテクトはこのガイダンスを使用すると、このアーキテクチャの一般的な実装の主要コンポーネントを視覚化しやすくなります。 ワークロードの特定の要件に適合する、適切に設計されたソリューションを設計するための出発点として、この記事を使用してください。

このソリューションでは、最新のデータ アーキテクチャの主要な原則とコンポーネントの概要を説明します。 Azure Databricks は、このソリューションの中核となります。 このプラットフォームは、Azure Data Lake Storage、Microsoft Fabric、Power BI などの他のサービスとシームレスに連携します。

Apache® および Apache Spark™ は、Apache Software Foundation の米国およびその他の国における登録商標です。 これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

Architecture

最新のデータ アーキテクチャがデータを収集、処理、分析、視覚化する方法を示すアーキテクチャ図。

このアーキテクチャの Visio ファイル をダウンロードします。

データフロー

  1. Azure Databricks は、Delta Live Tables を使用して Azure Event Hubs から生ストリーミング データを取り込みます。

  2. Fabric Data Factory は、生のバッチ データを Data Lake Storage に読み込みます。

  3. データ ストレージの場合:

    • Data Lake Storage には、構造化データ、非構造化データ、部分的構造化データなど、あらゆる種類のデータが格納されます。 バッチとストリーミングのデータも格納されます。

    • Delta Lake により、データ レイクのキュレーションされたレイヤーが形成されます。 これによって、絞り込まれたデータがオープンソース形式で格納されます。

    • Azure Databricks は、データをレイヤーに編成する メダル式アーキテクチャ と協調して機能します。

      • ブロンズ レイヤー: 生データを保持します。
      • シルバー レイヤー: クリーニングされたフィルター処理されたデータが含まれています。
      • ゴールド レイヤー: ビジネス分析に役立つ集計データを格納します。
  4. 分析プラットフォームにより、さまざまなバッチとストリーミングのソースからデータが取り込まれます。 データ サイエンティストは、次のようなタスクにこのデータを使用します。

    • データの準備。
    • データの探索。
    • モデルの準備。
    • モデルのトレーニング。

    MLflow により、データ サイエンス コードの実行におけるパラメーター、メトリック、モデルの追跡が管理されます。 柔軟性に富んだコーディングの方法が用意されています。

    • 使用可能なコードは SQL、Python、R、Scala です。
    • コードでは、Koalas、Pandas、scikit-learn などの一般的なオープンソース ライブラリとフレームワークを使用できます。このライブラリはプレインストールされ、最適化されています。
    • ユーザーは、単一ノードと複数ノードのコンピューティング オプションを使用して、パフォーマンスとコストを最適化できます。
  5. 機械学習モデルは、次の形式で使用できます。

    • Azure Databricks により、モデルに関する情報が MLflow モデル レジストリに格納されます。 このレジストリを使用すると、バッチ、ストリーミング、REST API を通じてモデルを利用できるようになります。
    • また、このソリューションでは Azure Machine Learning Web サービスまたは Azure Kubernetes Service (AKS) にモデルをデプロイすることもできます。
  6. データを操作するサービスは、一貫性を確保するために、基になる 1 つのデータ ソースに接続します。 たとえば、Azure Databricks SQL ウェアハウスを使用して、データ レイクに対して SQL クエリを実行できます。 このサービスは以下のことを行います。

  7. Azure Databricks Unity カタログから Fabric にゴールド データセットをミラーリングできます。 Fabric Azure Databricks ミラーリングを使用すると、データの移動やレプリケートを必要とせずに簡単に統合できます。

  8. Power BI により、統合データ プラットフォームから分析と履歴のレポートとダッシュボードが生成されます。 このサービスは、Azure Databricks で動作するときに次の機能を使用します。

    • 基になるデータを視覚化するための、 組み込みの Azure Databricks コネクタ
    • 最適化された Java Database Connectivity ドライバーと Open Database Connectivity ドライバー。
    • Direct Lake Fabric の Azure Databricks ミラーリングを使用して、パフォーマンスの高いクエリ用の Power BI セマンティック モデルを読み込むことができます。
  9. このソリューションでは、コラボレーション、パフォーマンス、信頼性、ガバナンス、セキュリティのために Unity カタログと Azure サービスを使用します。

    • Azure Databricks Unity カタログは、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、データ検出機能を提供します。

    • Microsoft Purview では、データ資産全体でのデータ検出サービス、機密データ分類、ガバナンス分析情報が提供されます。

    • Azure DevOps では、継続的インテグレーションと継続的配置 (CI/CD) などの統合バージョン管理機能が提供されます。

    • Azure Key Vault は、シークレット、キー、証明書を安全に管理するのに役立ちます。

    • Microsoft Entra ID とクロスドメイン ID 管理 (SCIM) プロビジョニング用システムは、Azure Databricks のユーザーとグループにシングル サインオンを提供します。 Azure Databricks では、Microsoft Entra ID を使用した次の自動化されたユーザー プロビジョニングがサポートされています。

      • 新しいユーザーとグループを作成します。
      • 各ユーザーにアクセス レベルを割り当てます。
      • ユーザーを削除し、アクセスを拒否します。
    • Azure Monitor では、Azure リソースのテレメトリの収集と分析が行われます。 このサービスで問題を事前に特定することで、パフォーマンスと信頼性を最大限に高めます。

    • Microsoft Cost Management は、Azure ワークロードに財務ガバナンス サービスを提供します。

コンポーネント

このソリューションでは、次のコンポーネントを使用します。

コア コンポーネント

  • Azure Databricks は、Spark クラスターを使用して大規模なデータ ストリームを処理するデータ分析プラットフォームです。 非構造化データをクリーンアップして変換し、構造化データと組み合わせます。 また、機械学習モデルをトレーニングしてデプロイすることもできます。 このアーキテクチャでは、Azure Databricks がデータ インジェスト、処理、サービスの中心的なツールとして機能します。 データ ライフサイクル全体を管理するための統合環境を提供します。

  • Azure Databricks SQL ウェアハウス は、Azure Databricks 上のデータのクエリと探索に使用できるコンピューティング リソースです。 このアーキテクチャでは、SQL エンドポイントを使用して Power BI からデータに直接接続できます。

  • Azure Databricks Delta Live Tables は、信頼性の高い保守可能でテスト可能なデータ処理パイプラインを構築するための宣言型フレームワークです。 このアーキテクチャでは、Delta Live Tables を使用して、データに対して実行する変換を定義できます。 また、Azure Databricks 内でタスクオーケストレーション、クラスター管理、監視、データ品質、エラー処理を管理するのにも役立ちます。

  • Microsoft Fabric は、統合ソリューションを必要とする組織向けのエンドツーエンドの分析およびデータ プラットフォームです。 このプラットフォームは、データ エンジニアリング、Data Factory、データ サイエンス、Real-Time インテリジェンス、データ ウェアハウス、データベースなどのサービスを提供します。 このアーキテクチャでは、Unity カタログ テーブルを Fabric にミラーリングし、Power BI の Direct Lake を使用してパフォーマンスを向上させます。

  • Microsoft Fabric Data Factory は、Fabric の豊富なデータ ソースのセットからデータを取り込み、準備し、変換するために使用できる最新のデータ統合プラットフォームです。 このアーキテクチャでは、Data Lake Storage または OneLake にすばやく取り込むため、複数のデータ ソースへの組み込みコネクタを使用します。 Azure Databricks は、後でバッチ データを取得し、さらに変換します。

  • Event Hubs は、フル マネージドのビッグ データ ストリーミング プラットフォームです。 サービスとしてのプラットフォームとして、イベント インジェスト機能を提供します。 このアーキテクチャでは、ストリーミング データに Event Hubs を使用します。 Azure Databricks は、このデータに接続し、Spark ストリーミングまたは Delta Live テーブルを使用して処理できます。

  • Data Lake Storage は、高パフォーマンス分析のためのスケーラブルで安全なデータ レイクです。 複数のペタバイト単位のデータを処理し、数百ギガビットのスループットをサポートします。 Data Lake Storage では、構造化されたデータ、部分的に構造化されたデータ、および非構造化データを格納できます。 このアーキテクチャでは、Data Lake Storage を使用してバッチ データとストリーミング データの両方を格納します。

  • Machine Learning は、予測分析ソリューションの構築、デプロイ、管理に役立つクラウドベースの環境です。 これらのモデルを使用すると、動作、結果、傾向を予測できます。 このアーキテクチャでは、Machine Learning は、モデルのトレーニングと推論のために Azure Databricks が変換するデータを使用します。

  • AKS は、高可用性とセキュリティを備えたフル マネージド Kubernetes サービスです。 AKS により、コンテナ化されたアプリケーションのデプロイと管理が容易になります。 このアーキテクチャでは、AKS は、スケーラブルな推論のために、コンテナー化された環境で機械学習モデルをホストします。

  • Delta Lake は、オープン ファイル形式を使用するストレージ レイヤーです。 このレイヤーは、Data Lake Storage などのクラウド ストレージ ソリューションの上で実行されます。 Delta Lake では、データの更新、削除、マージのために、データのバージョン管理、ロールバック、トランザクションがサポートされています。 このアーキテクチャでは、Delta Lake は Data Lake Storage からデータを書き込んで読み取るためのプライマリ ファイル形式として機能します。

  • MLflow は、機械学習のライフサイクルを管理するためのオープンソース プラットフォームです。 そのコンポーネントは、トレーニングと操作中に機械学習モデルを監視します。 このアーキテクチャでは、Machine Learning と同様に、Azure Databricks の MLflow を使用して機械学習のライフサイクルを管理できます。 Azure Databricks 内で変換した Unity カタログ データを使用して、モデルをトレーニングおよび推論します。

レポートとコンポーネントの管理

  • Azure Databricks Unity カタログ は、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。 このアーキテクチャでは、Unity Catalog が Azure Databricks 内の主要なツールとして機能し、データ アクセスを管理およびセキュリティで保護します。

  • Power BI は、ソフトウェア サービスとアプリのコレクションです。 これらのサービスを使用すると、関連のないデータ ソースを結び付けて視覚化するレポートを作成して共有できます。 Power BI と Azure Databricks を連携させると、根本原因の特定と生データの分析を実行できます。 このアーキテクチャでは、Power BI を使用して、Azure Databricks と Fabric で処理されるデータに関する分析情報を提供するダッシュボードとレポートを作成します。

  • Microsoft Purview では、オンプレミス、マルチクラウド、サービスとしてのソフトウェア (SaaS) データを管理できます。 このガバナンス サービスでは、データ全体のマップを保持します。 その機能には、自動データ検出、機密データ分類、およびデータ系列が含まれます。 このアーキテクチャでは、Microsoft Purview を使用して、Unity カタログ、ファブリック、Power BI、Data Lake Storage に取り込まれたデータをスキャンして追跡します。

  • Azure DevOps は、DevOps のオーケストレーション プラットフォームです。 この SaaS は、アプリケーションの構築、デプロイ、共同作業を行うためのツールと環境を提供します。 このアーキテクチャでは、Azure DevOps を使用して Azure インフラストラクチャのデプロイを自動化します。 また、Azure Databricks コードの自動化とバージョン管理に GitHub を使用して、CI/CD パイプラインとのコラボレーション、変更追跡、統合を向上させることもできます。

  • Key Vault は、トークン、パスワード、API キーなどのシークレットへのアクセスを格納および制御します。 また Key Vault は、暗号化キーを作成および制御し、セキュリティ証明書を管理します。 このアーキテクチャでは、Key Vault を使用して Data Lake Storage からの共有アクセス署名キーを格納します。 これらのキーは、認証のために Azure Databricks やその他のサービスで使用されます。

  • Microsoft Entra ID はクラウドベースの ID およびアクセス管理サービスを提供します。 これらの機能により、ユーザーはサインインしてリソースにアクセスするための方法を利用できます。 このアーキテクチャでは、Microsoft Entra ID を使用して、Azure のユーザーとサービスを認証および承認します。

  • SCIM では、Microsoft Entra ID を使用して Azure Databricks アカウントへのプロビジョニングを設定できます。 このアーキテクチャでは、SCIM を使用して、Azure Databricks ワークスペースにアクセスするユーザーを管理します。

  • Azure Monitor は、環境と Azure リソースのデータを収集および分析します。 このデータには、パフォーマンス メトリックやアクティビティ ログなどのアプリ テレメトリが含まれます。 このアーキテクチャでは、Azure Monitor を使用して、Azure Databricks と Machine Learning のコンピューティング リソースの正常性と、Azure Monitor にログを送信するその他のコンポーネントを監視します。

  • Cost Management は、クラウド支出の管理に役立ちます。 このサービスでは、予算と推奨事項を使用して経費を整理し、コストを削減する方法を示します。 このアーキテクチャでは、Cost Management を使用して、ソリューション全体のコストを監視および制御できます。

シナリオの詳細

最新のデータ アーキテクチャ:

  • データ、分析、AI ワークロードを統合します。
  • あらゆる規模で効率的かつ確実に実行します。
  • 分析ダッシュボード、運用レポート、または高度な分析を通じて分析情報を提供します。

このソリューションは、これらの目標を達成する最新のデータ アーキテクチャの概要を示しています。 Azure Databricks は、このソリューションの中核となります。 このプラットフォームは、他のサービスとシームレスに連携します。 これらのサービスを組み合わせることで、次のようなソリューションが提供されます。

  • シンプル: 分析、データ サイエンス、機械学習の統合により、データ アーキテクチャが簡略化されます。
  • オープン: このソリューションでは、オープンソース コード、オープン標準、オープン フレームワークがサポートされています。 一般的な統合開発環境 (IDE)、ライブラリ、プログラミング言語にも対応しています。 ネイティブのコネクタと API により、このソリューションは他のさまざまなサービスとも連携できます。
  • コラボレーション: このソリューションでは、データ エンジニア、データ科学者、アナリストが連携します。 それぞれがコラボレーション用のノートブック、IDE、ダッシュボードなどのツールを使用して、基になる共通のデータにアクセスし、分析できます。

考えられるユース ケース

Swiss Re Group が不動産 & 損害再保険部門のために構築したシステムが、このソリューションのインスピレーションとなりました。 保険業界に加えて、ビッグ データや機械学習と連携するすべての領域でも、このソリューションのメリットを得ることができます。 たとえば、次のようになります。

  • エネルギーセクター。
  • 小売と e コマース。
  • 銀行と金融。
  • 医療と医療。

次のステップ

関連するソリューションの詳細については、次のガイドとアーキテクチャを参照してください。