Azure Databricks を使用して最新の分析アーキテクチャを作成する

Azure Databricks

Microsoft Fabric

Power BI

Azure Data Lake Storage

ソリューションのアイデア

この記事ではソリューションのアイデアについて説明します。クラウドアーキテクトはこのガイダンスを使用すると、このアーキテクチャの一般的な実装の主要コンポーネントを視覚化しやすくなります。ワークロードの特定の要件に適合する、適切に設計されたソリューションを設計するための出発点として、この記事を使用してください。

このソリューションでは、最新のデータアーキテクチャの主要な原則とコンポーネントの概要を説明します。 Azure Databricks は、このソリューションの中核となります。このプラットフォームは、Azure Data Lake Storage、Microsoft Fabric、Power BI などの他のサービスとシームレスに連携します。

Apache® および Apache Spark™ は、Apache Software Foundation の米国およびその他の国における登録商標です。これらのマークを使用することが、Apache Software Foundation による保証を意味するものではありません。

Architecture

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

Azure Databricks は、Delta Live Tables を使用して Azure Event Hubs から生ストリーミングデータを取り込みます。
Fabric Data Factory は、生のバッチデータを Data Lake Storage に読み込みます。
データストレージの場合:
- Data Lake Storage には、構造化データ、非構造化データ、部分的構造化データなど、あらゆる種類のデータが格納されます。バッチとストリーミングのデータも格納されます。
- Delta Lake により、データレイクのキュレーションされたレイヤーが形成されます。これによって、絞り込まれたデータがオープンソース形式で格納されます。
- Azure Databricks は、データをレイヤーに編成するメダル式アーキテクチャと協調して機能します。
  - ブロンズレイヤー: 生データを保持します。
  - シルバーレイヤー: クリーニングされたフィルター処理されたデータが含まれています。
  - ゴールドレイヤー: ビジネス分析に役立つ集計データを格納します。
分析プラットフォームにより、さまざまなバッチとストリーミングのソースからデータが取り込まれます。データサイエンティストは、次のようなタスクにこのデータを使用します。
- データの準備。
- データの探索。
- モデルの準備。
- モデルのトレーニング。
MLflow により、データサイエンスコードの実行におけるパラメーター、メトリック、モデルの追跡が管理されます。柔軟性に富んだコーディングの方法が用意されています。
- 使用可能なコードは SQL、Python、R、Scala です。
- コードでは、Koalas、Pandas、scikit-learn などの一般的なオープンソースライブラリとフレームワークを使用できます。このライブラリはプレインストールされ、最適化されています。
- ユーザーは、単一ノードと複数ノードのコンピューティングオプションを使用して、パフォーマンスとコストを最適化できます。
機械学習モデルは、次の形式で使用できます。
- Azure Databricks により、モデルに関する情報が MLflow モデルレジストリに格納されます。このレジストリを使用すると、バッチ、ストリーミング、REST API を通じてモデルを利用できるようになります。
- また、このソリューションでは Azure Machine Learning Web サービスまたは Azure Kubernetes Service (AKS) にモデルをデプロイすることもできます。
データを操作するサービスは、一貫性を確保するために、基になる 1 つのデータソースに接続します。たとえば、Azure Databricks SQL ウェアハウスを使用して、データレイクに対して SQL クエリを実行できます。このサービスは以下のことを行います。
- クエリエディターとカタログ、クエリ履歴、基本的なダッシュボード、アラートを提供します。
- 行レベルのアクセス許可と列レベルのアクセス許可を含む統合セキュリティを使用します。
- 光子駆動デルタエンジンを使用して、パフォーマンスを向上させます。
Azure Databricks Unity カタログから Fabric にゴールドデータセットをミラーリングできます。 Fabric Azure Databricks ミラーリングを使用すると、データの移動やレプリケートを必要とせずに簡単に統合できます。
Power BI により、統合データプラットフォームから分析と履歴のレポートとダッシュボードが生成されます。このサービスは、Azure Databricks で動作するときに次の機能を使用します。
- 基になるデータを視覚化するための、組み込みの Azure Databricks コネクタ。
- 最適化された Java Database Connectivity ドライバーと Open Database Connectivity ドライバー。
- Direct Lake Fabric の Azure Databricks ミラーリングを使用して、パフォーマンスの高いクエリ用の Power BI セマンティックモデルを読み込むことができます。
このソリューションでは、コラボレーション、パフォーマンス、信頼性、ガバナンス、セキュリティのために Unity カタログと Azure サービスを使用します。
- Azure Databricks Unity カタログは、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、データ検出機能を提供します。
- Microsoft Purview では、データ資産全体でのデータ検出サービス、機密データ分類、ガバナンス分析情報が提供されます。
- Azure DevOps では、継続的インテグレーションと継続的配置 (CI/CD) などの統合バージョン管理機能が提供されます。
- Azure Key Vault は、シークレット、キー、証明書を安全に管理するのに役立ちます。
- Microsoft Entra ID とクロスドメイン ID 管理 (SCIM) プロビジョニング用システムは、Azure Databricks のユーザーとグループにシングルサインオンを提供します。 Azure Databricks では、Microsoft Entra ID を使用した次の自動化されたユーザープロビジョニングがサポートされています。
  - 新しいユーザーとグループを作成します。
  - 各ユーザーにアクセスレベルを割り当てます。
  - ユーザーを削除し、アクセスを拒否します。
- Azure Monitor では、Azure リソースのテレメトリの収集と分析が行われます。このサービスで問題を事前に特定することで、パフォーマンスと信頼性を最大限に高めます。
- Microsoft Cost Management は、Azure ワークロードに財務ガバナンスサービスを提供します。

コンポーネント

このソリューションでは、次のコンポーネントを使用します。

コアコンポーネント

Azure Databricks は、Spark クラスターを使用して大規模なデータストリームを処理するデータ分析プラットフォームです。非構造化データをクリーンアップして変換し、構造化データと組み合わせます。また、機械学習モデルをトレーニングしてデプロイすることもできます。このアーキテクチャでは、Azure Databricks がデータインジェスト、処理、サービスの中心的なツールとして機能します。データライフサイクル全体を管理するための統合環境を提供します。
Azure Databricks SQL ウェアハウスは、Azure Databricks 上のデータのクエリと探索に使用できるコンピューティングリソースです。このアーキテクチャでは、SQL エンドポイントを使用して Power BI からデータに直接接続できます。
Azure Databricks Delta Live Tables は、信頼性の高い保守可能でテスト可能なデータ処理パイプラインを構築するための宣言型フレームワークです。このアーキテクチャでは、Delta Live Tables を使用して、データに対して実行する変換を定義できます。また、Azure Databricks 内でタスクオーケストレーション、クラスター管理、監視、データ品質、エラー処理を管理するのにも役立ちます。
Microsoft Fabric は、統合ソリューションを必要とする組織向けのエンドツーエンドの分析およびデータプラットフォームです。このプラットフォームは、データエンジニアリング、Data Factory、データサイエンス、Real-Time インテリジェンス、データウェアハウス、データベースなどのサービスを提供します。このアーキテクチャでは、Unity カタログテーブルを Fabric にミラーリングし、Power BI の Direct Lake を使用してパフォーマンスを向上させます。
Microsoft Fabric の Data Factory は、Fabric の豊富なデータソースのセットからデータを取り込み、準備し、変換するために使用できる最新のデータ統合プラットフォームです。このアーキテクチャでは、Data Lake Storage または OneLake にすばやく取り込むため、複数のデータソースへの組み込みコネクタを使用します。 Azure Databricks は、後でバッチデータを取得し、さらに変換します。
Event Hubs は、フルマネージドのビッグデータストリーミングプラットフォームです。サービスとしてのプラットフォームとして、イベントインジェスト機能を提供します。このアーキテクチャでは、ストリーミングデータに Event Hubs を使用します。 Azure Databricks は、このデータに接続し、Spark ストリーミングまたは Delta Live テーブルを使用して処理できます。
Data Lake Storage は、高パフォーマンス分析のためのスケーラブルで安全なデータレイクです。複数のペタバイト単位のデータを処理し、数百ギガビットのスループットをサポートします。 Data Lake Storage では、構造化されたデータ、部分的に構造化されたデータ、および非構造化データを格納できます。このアーキテクチャでは、Data Lake Storage を使用してバッチデータとストリーミングデータの両方を格納します。
Machine Learning は、予測分析ソリューションの構築、デプロイ、管理に役立つクラウドベースの環境です。これらのモデルを使用すると、動作、結果、傾向を予測できます。このアーキテクチャでは、Machine Learning は、モデルのトレーニングと推論のために Azure Databricks が変換するデータを使用します。
AKS は、高可用性とセキュリティを備えたフルマネージド Kubernetes サービスです。 AKS により、コンテナ化されたアプリケーションのデプロイと管理が容易になります。このアーキテクチャでは、AKS は、スケーラブルな推論のために、コンテナー化された環境で機械学習モデルをホストします。
Delta Lake は、オープンファイル形式を使用するストレージレイヤーです。このレイヤーは、Data Lake Storage などのクラウドストレージソリューションの上で実行されます。 Delta Lake では、データの更新、削除、マージのために、データのバージョン管理、ロールバック、トランザクションがサポートされています。このアーキテクチャでは、Delta Lake は Data Lake Storage からデータを書き込んで読み取るためのプライマリファイル形式として機能します。
MLflow は、機械学習のライフサイクルを管理するためのオープンソースプラットフォームです。そのコンポーネントは、トレーニングと操作中に機械学習モデルを監視します。このアーキテクチャでは、Machine Learning と同様に、Azure Databricks の MLflow を使用して機械学習のライフサイクルを管理できます。 Azure Databricks 内で変換した Unity カタログデータを使用して、モデルをトレーニングおよび推論します。

レポートとコンポーネントの管理

Azure Databricks Unity カタログは、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。このアーキテクチャでは、Unity Catalog が Azure Databricks 内の主要なツールとして機能し、データアクセスを管理およびセキュリティで保護します。
Power BI は、ソフトウェアサービスとアプリのコレクションです。これらのサービスを使用すると、関連のないデータソースを結び付けて視覚化するレポートを作成して共有できます。 Power BI と Azure Databricks を連携させると、根本原因の特定と生データの分析を実行できます。このアーキテクチャでは、Power BI を使用して、Azure Databricks と Fabric で処理されるデータに関する分析情報を提供するダッシュボードとレポートを作成します。
Microsoft Purview では、オンプレミス、マルチクラウド、サービスとしてのソフトウェア (SaaS) データを管理できます。このガバナンスサービスでは、データ全体のマップを保持します。その機能には、自動データ検出、機密データ分類、およびデータ系列が含まれます。このアーキテクチャでは、Microsoft Purview を使用して、Unity カタログ、ファブリック、Power BI、Data Lake Storage に取り込まれたデータをスキャンして追跡します。
Azure DevOps は、DevOps のオーケストレーションプラットフォームです。この SaaS は、アプリケーションの構築、デプロイ、共同作業を行うためのツールと環境を提供します。このアーキテクチャでは、Azure DevOps を使用して Azure インフラストラクチャのデプロイを自動化します。また、Azure Databricks コードの自動化とバージョン管理に GitHub を使用して、CI/CD パイプラインとのコラボレーション、変更追跡、統合を向上させることもできます。
Key Vault は、トークン、パスワード、API キーなどのシークレットへのアクセスを格納および制御します。また Key Vault は、暗号化キーを作成および制御し、セキュリティ証明書を管理します。このアーキテクチャでは、Key Vault を使用して Data Lake Storage からの共有アクセス署名キーを格納します。これらのキーは、認証のために Azure Databricks やその他のサービスで使用されます。
Microsoft Entra ID はクラウドベースの ID およびアクセス管理サービスを提供します。これらの機能により、ユーザーはサインインしてリソースにアクセスするための方法を利用できます。このアーキテクチャでは、Microsoft Entra ID を使用して、Azure のユーザーとサービスを認証および承認します。
SCIM では、Microsoft Entra ID を使用して Azure Databricks アカウントへのプロビジョニングを設定できます。このアーキテクチャでは、SCIM を使用して、Azure Databricks ワークスペースにアクセスするユーザーを管理します。
Azure Monitor は、環境と Azure リソースのデータを収集および分析します。このデータには、パフォーマンスメトリックやアクティビティログなどのアプリテレメトリが含まれます。このアーキテクチャでは、Azure Monitor を使用して、Azure Databricks と Machine Learning のコンピューティングリソースの正常性と、Azure Monitor にログを送信するその他のコンポーネントを監視します。
Cost Management は、クラウド支出の管理に役立ちます。このサービスでは、予算と推奨事項を使用して経費を整理し、コストを削減する方法を示します。このアーキテクチャでは、Cost Management を使用して、ソリューション全体のコストを監視および制御できます。

シナリオの詳細

最新のデータアーキテクチャ:

データ、分析、AI ワークロードを統合します。
あらゆる規模で効率的かつ確実に実行します。
分析ダッシュボード、運用レポート、または高度な分析を通じて分析情報を提供します。

このソリューションは、これらの目標を達成する最新のデータアーキテクチャの概要を示しています。 Azure Databricks は、このソリューションの中核となります。このプラットフォームは、他のサービスとシームレスに連携します。これらのサービスを組み合わせることで、次のようなソリューションが提供されます。

シンプル: 分析、データサイエンス、機械学習の統合により、データアーキテクチャが簡略化されます。
オープン: このソリューションでは、オープンソースコード、オープン標準、オープンフレームワークがサポートされています。一般的な統合開発環境 (IDE)、ライブラリ、プログラミング言語にも対応しています。ネイティブのコネクタと API により、このソリューションは他のさまざまなサービスとも連携できます。
コラボレーション: このソリューションでは、データエンジニア、データ科学者、アナリストが連携します。それぞれがコラボレーション用のノートブック、IDE、ダッシュボードなどのツールを使用して、基になる共通のデータにアクセスし、分析できます。

考えられるユースケース

Swiss Re Group が不動産 & 損害再保険部門のために構築したシステムが、このソリューションのインスピレーションとなりました。保険業界に加えて、ビッグデータや機械学習と連携するすべての領域でも、このソリューションのメリットを得ることができます。たとえば、次のようになります。

エネルギーセクター。
小売と e コマース。
銀行と金融。
医療と医療。

次のステップ

Azure Databricks でエンドツーエンドのデータパイプラインを構築する
最初の Delta Live Tables パイプラインを実行する

関連するソリューションの詳細については、次のガイドとアーキテクチャを参照してください。

次の方法で共有

Azure Databricks を使用して最新の分析アーキテクチャを作成する

Architecture

データフロー

コンポーネント

コアコンポーネント

レポートとコンポーネントの管理

シナリオの詳細

考えられるユースケース

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure Databricks を使用して最新の分析アーキテクチャを作成する

Architecture

データフロー

コンポーネント

コア コンポーネント

レポートとコンポーネントの管理

シナリオの詳細

考えられるユース ケース

次のステップ

関連リソース

関連するアーキテクチャのガイド

関連するアーキテクチャ

フィードバック

その他のリソース

コアコンポーネント

考えられるユースケース