ソリューションのアイデア
この記事では、ソリューションのアイデアについて説明します。 クラウド アーキテクトは、このガイダンスを使用して、このアーキテクチャの一般的な実装の主要なコンポーネントを視覚化するのに役立ちます。 この記事は、ワークロードの特定の要件に合わせて適切に設計されたソリューションを設計するための出発点として使用します。
この記事では、中小企業 (SMB) が Azure Databricks への既存の投資と、Microsoft Fabric などのサービスとしてのフル マネージド ソフトウェア (SaaS) データ プラットフォームを組み合わせる方法について説明します。 SaaS データ プラットフォームは、Azure Machine Learning、Azure AI Services、Power Platform、Microsoft Dynamics 365、その他の Microsoft テクノロジなどのツールと簡単に統合できるエンド ツー エンドのデータ分析ソリューションです。
簡略化されたアーキテクチャ
このアーキテクチャの Visio ファイル をダウンロードします。
Azure Databricks と Microsoft Fabric の相互運用性により、分析機能を強化しながらデータの断片化を最小限に抑える堅牢なソリューションが提供されます。
Microsoft Fabric は、基になる SaaS ストレージとして、OneLake と呼ばれるオープンで管理されたデータ レイクを提供します。 OneLake では Delta Parquet 形式が使用されます。これは、Azure Databricks で使用されるのと同じ形式です。 OneLake から Azure Databricks データにアクセスするには、Fabric
OneLake の Azure Databricks データで Power BI のダイレクト レイク モードを使用することもできます。 ダイレクト レイク モードでは、サービス レイヤーが簡略化され、レポートのパフォーマンスが向上します。 OneLake では、Azure Data Lake Storage の API がサポートされ、すべての表形式のデータが Delta Parquet 形式で格納されます。
その結果、Azure Databricks ノートブックは OneLake エンドポイントを使用して、格納されているデータにアクセスできます。 このエクスペリエンスは、Microsoft Fabric ウェアハウスを介してデータにアクセスする場合と同じです。 この統合により、データを再作成することなく、Fabric または Azure Databricks を使用できます。
建築
このアーキテクチャの Visio ファイル をダウンロードします。
データフロー
Azure Data Factory: 既存の Azure Data Factory パイプラインを使用して、ソース システムから構造化データと非構造化データを取り込み、既存のデータ レイクに配置します。
Microsoft Dynamics 365: Microsoft Dynamics 365 データ ソースを使用して、Azure Synapse Link または Microsoft Fabric Link を使用して、拡張データセット上に一元化された BI ダッシュボードを構築できます。 統合された処理済みデータを Microsoft Dynamics 365 と Power BI に戻し、さらに分析します。
ストリーミング データ インジェスト: ストリーミング データは、これらのメッセージの送信に使用されるプロトコルに応じて、Azure Event Hubs または Azure IoT Hubs を介して取り込むことができます。
コールド パス: Azure Databricks を使用して、ストリーミング データを一元化されたデータ レイクに取り込み、さらに分析、ストレージ、レポートを行うことができます。 このデータは、バッチ分析のために他のデータ ソースと統合できます。
ホット パス: ストリーミング データは、Microsoft Fabric Real-Time Intelligence を使用してリアルタイムおよびリアルタイムのダッシュボードで分析できます。
Azure Databricks: 既存の Azure Databricks Notebook を使用して、通常どおりデータ クレンジング、統一、分析を実行できます。 次のような medallion アーキテクチャの使用を検討してください。
生データを保持するブロンズ。
クリーニングされたフィルター処理されたデータを含む Silver。
Gold は、ビジネス分析に役立つ集計データを格納します。
ゴールデン データまたはデータ ウェアハウスの : ゴールデン データまたはデータ ウェアハウスの場合は、引き続き Azure Databricks SQL を使用するか、Microsoft Fabric で Azure Databricks Unity カタログをミラーリングします。 すべての Fabric Lakehouse に対して自動的に作成される Power BI セマンティック モデルを使用して、セットアップを必要とせずに、Fabric Lakehouses のデータのサーバーレス分析に基づいてダッシュボードを簡単に作成できます。 分析要件により高速なコンピューティングが必要な場合は、Fabric Data Warehouse をゴールデン レイヤーとして使用することもできます。
ガバナンス、コラボレーション、セキュリティ、パフォーマンス、コストの監視に使用されるツールは次のとおりです。
検出と管理
Microsoft Purview は、データ資産全体にわたるデータ検出サービス、機密データ分類、ガバナンスの分析情報を提供します。
Unity Catalog は、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。
Azure DevOps には、継続的インテグレーションと継続的デプロイ、およびその他の統合バージョン管理機能が用意されています。
Azure Key Vault は、シークレット、キー、証明書を管理します。
Microsoft Entra ID は、Azure Databricks ユーザーにシングル サインオンを提供します。 Azure Databricks では、Microsoft Entra ID を使用した次の自動化されたユーザー プロビジョニングがサポートされています。
新しいユーザーを作成します。
各ユーザーにアクセス レベルを割り当てます。
ユーザーを削除し、アクセスを拒否します。
Azure Monitor は、Azure リソース テレメトリを収集して分析します。 このサービスは、問題を事前に特定することで、パフォーマンスと信頼性を最大化します。
Microsoft Cost Management は、Azure ワークロード用の財務ガバナンス サービスを提供します。
コンポーネント
Data Lake Storage は、構造化データと非構造化データ用に設計されたスケーラブルなデータ ストレージ サービスです。 このアーキテクチャでは、Data Lake Storage は Delta Lake の基盤となるインフラストラクチャとして機能します。 これは生データと処理済みデータのプライマリ ストレージ 層であり、分析と機械学習ワークロードの効率的なデータ インジェスト、ストレージ、取得を可能にします。
Azure Data Factory は、データの移動と変換を調整および自動化するクラウドベースのデータ統合サービスです。 Azure Data Factory は、さまざまなデータ ストアやサービス間でデータを移動および変換するデータ パイプラインを作成、スケジュール設定、調整するために使用されます。 シームレスなデータ フローと統合を確保するのに役立ちます。
Event Hubs は、任意のソースから 1 秒あたり何百万ものイベントを処理できるリアルタイム データ インジェスト サービスです。 このアーキテクチャでは、Event Hubs はさまざまなソースから大量のデータをキャプチャしてストリーミングし、リアルタイムの分析とイベント ドリブン処理を可能にします。
Azure IoT Hub は、IoT デバイスとクラウド間のセキュリティと信頼性の高い通信を向上させるマネージド サービスです。 Azure IoT Hub は、IoT デバイスからのテレメトリ データの取り込み、処理、分析を容易にして、リアルタイムの分析情報を提供し、リモート監視を有効にします。
Microsoft Dataverse は、組織がビジネス アプリケーションで使用するデータを安全に格納および管理するために使用できるスケーラブルなデータ プラットフォームです。 このアーキテクチャでは、潜在的なデータ ソースとして参照されます。
Azure Synapse Link は、Dynamics アプリケーションを Azure Synapse Analytics または Data Lake Storage に接続します。 このアーキテクチャでは、Dataverse から Data Lake Storage にほぼリアルタイムでデータをコピーするために使用されます。
Microsoft Fabric Link は、Dynamics アプリケーションを Microsoft Fabric に接続します。 このアーキテクチャでは、Dataverse から Microsoft Fabric にほぼリアルタイムでデータをレプリケートするために使用されます。
Azure Databricks は、Apache Spark ベースの分析プラットフォームです。 Azure Databricks は、ビッグ データ処理、機械学習、データ エンジニアリングのタスクに使用されます。 このプラットフォームは、データ サイエンティストとエンジニアのためのコラボレーション ワークスペースを提供します。
Delta Lake は、Apache Spark とビッグ データワークロードに ACID トランザクションを提供するオープンソースストレージレイヤーです。 Delta Lake は、この機能を Data Lake Storage に提供するために使用されます。
Azure Databricks SQL は、ユーザーが Azure Databricks に格納されているデータに対して SQL クエリを実行できるようにする SQL ベースの分析サービスです。 このアーキテクチャでは、Azure Databricks SQL は、データのクエリと分析を行う強力な SQL インターフェイスを提供します。これにより、対話型およびアドホック分析が可能になります。
AI と Machine Learning には、機械学習モデルの開発、デプロイ、管理を可能にするさまざまなテクノロジとサービスが含まれています。 AI と Machine Learning サービスは、予測モデルの構築、トレーニング、デプロイに使用されます。 この機能により、データドリブンの意思決定が可能になります。
Unity Catalog は、Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供するデータ ガバナンス ソリューションです。 Unity Catalog は、きめ細かなアクセス制御、監査、データ系列の追跡を提供することで、データ ガバナンスとセキュリティを確保するのに役立ちます。
Medallion lakehouse アーキテクチャ は、効率的なデータ処理と分析のために、データをブロンズ、シルバー、ゴールドの各レイヤーに整理するデータ アーキテクチャ パターンです。 このアーキテクチャ パターンは、Data Lake Storage、Delta Lake、Azure Databricks を使用して実装されています。これにより、スケーラブルで効率的なデータ処理と分析が可能になります。
Microsoft Fabric は、さまざまなデータ サービスとツールを統合してシームレスなデータ管理と分析エクスペリエンスを提供する包括的なデータ プラットフォームです。 Microsoft Fabric は、複数のソースからのデータを接続して統合します。これにより、組織全体の包括的なデータ分析と分析情報が可能になります。
Real-Time インテリジェンス は、組織がリアルタイムでデータを取り込み、処理し、分析できるようにするデータ処理機能です。 Real-Time インテリジェンスは、さまざまなソースからのストリーミング データを処理します。 リアルタイムの分析情報を提供し、データ パターンに基づいて自動化されたアクションを可能にします。
OneLake ショートカット 、OneLake と別のデータ ソースの間にインプレース リンクを作成。 OneLake ショートカットは、組織全体のデータの統合ビューを提供するデータ アクセスと管理を効率化するために使用されます。
Power BI は、対話型の視覚化とビジネス インテリジェンス機能を提供するビジネス分析サービスです。 ユーザーが独自の対話型レポートとダッシュボードを作成するためのシンプルなインターフェイスがあります。 これらのツールを使用すると、ビジネス ユーザーのデータの視覚化と分析情報を得ることができます。
Microsoft Purview は、組織がさまざまなソースにわたってデータを管理および管理するのに役立つ統合データ ガバナンス サービスです。 Microsoft Purview には、データ カタログ、系列追跡、およびデータ ガバナンス機能が用意されています。 これらの機能は、組織全体のデータコンプライアンスとセキュリティを確保するのに役立ちます。
- Azure Databricks Unity カタログに接続して管理する: Unity カタログを Purview に統合して、Purview から Unity カタログメタデータにアクセスできます。
Microsoft Entra ID は、セキュリティで保護されたサインインと、Microsoft 365、Azure、その他の SaaS アプリケーションなどのリソースへのアクセスを確保するのに役立つクラウドベースの ID およびアクセス管理ソリューションです。 このアーキテクチャでは、Microsoft Entra ID によって、Azure リソースのセキュリティで保護された ID とアクセス管理が提供されます。 この機能により、セキュリティで保護されたサインインが可能になり、ユーザー ID が管理され、データとリソースへのアクセスが確実に承認されます。
Microsoft Cost Management は、組織が Microsoft Cloud のコストを分析、監視、最適化するために使用できる FinOps ツールのスイートです。 これらのツールは、このアーキテクチャの Azure リソースに対する財務ガバナンスを提供します。
Key Vault は、API キー、パスワード、証明書、暗号化キーなどのシークレットを格納および管理するクラウド サービスです。 このサービスを使用すると、ユーザーとアプリケーションはこれらのシークレットに安全にアクセスできます。 キーとシークレットを Key Vault に格納する場合は、1 か所で管理できます。 このアーキテクチャでは、Azure Databricks は Key Vault からシークレットを取得して、Data Lake Storage の認証とアクセスを行うことができます。 このプロセスは、これらのサービス間の安全でシームレスな統合を保証するのに役立ちます。
Azure Monitor は、アプリケーション、インフラストラクチャ、ネットワークに対してフル スタックの可観測性を提供する包括的な監視サービスです。 Azure Monitor を使用すると、ユーザーは Azure およびオンプレミス環境からテレメトリ データを収集、分析、操作して、問題を事前に特定し、パフォーマンスと信頼性を最大化できます。
Azure DevOps は、コラボレーション カルチャと合理化されたプロセスをサポートする一連の開発ツールです。 これらのツールを使用すると、開発者、プロジェクト マネージャー、共同作成者がより効率的にソフトウェアを開発できます。 Azure DevOps には、Azure Boards、Azure Repos、Azure Pipelines、Azure Test Plans、Azure Artifacts などの統合機能が用意されています。 これらの機能には、Web ブラウザーまたは統合開発環境クライアントを使用してアクセスできます。
GitHub は、開発者向けのバージョン管理とコラボレーションを簡略化するクラウドベースの Git リポジトリ ホスティング サービスです。 これにより、個人とチームは、Git を使用して、コードの保存と管理、変更の追跡、プロジェクトでの共同作業を行うことができます。 ユーザー フレンドリな GitHub インターフェイスを使用すると、すべてのスキル レベルのコーダから Git にアクセスできます。 Azure DevOps と GitHub を一緒に使用して、DevOps プラクティスを実装できます。 これらのプラクティスにより、Azure Data Factory、Azure Databricks、および Microsoft Fabric のワークロード開発およびデプロイ パイプラインに自動化とコンプライアンスが適用されます。
選択肢
独立した Microsoft Fabric 環境を作成するには、Microsoft Fabric
Greenfield lakehouse を参照してください。 オンプレミスの SQL 分析環境を Microsoft Fabric に移行するには、中小企業向けの最新のデータ ウェアハウスを参照してください。
このアーキテクチャ内のサービスの代替手段
バッチ インジェスト の
- 必要に応じて、Data Factory パイプラインではなく、Fabric Data Pipeline を使用してデータ統合を行います。 選択は、いくつかの要因によって異なります。 詳細については、「Microsoft Fabricの Azure Data Factory から Data Factory へのアクセス」を参照してください。
Microsoft Dynamics 365 インジェスト の
Data Lake ストレージとして Azure Data Lake を使用し、Dataverse データを取り込む場合は、Azure Data Lake
Azure Synapse Link for Dataverse を使用します。 Dynamics Finance and Operations については、Dataverse 用 FnO Azure Synapse Link のを参照してください。 データ レイク ストレージとして Microsoft Fabric Lakehouse を使用する場合は、Fabric Linkを参照してください。
ストリーミング データ インジェスト の
- Azure IoT と Event Hubs の間の決定は、ストリーミング データのソース、レポート デバイスとの複製と双方向通信が必要かどうか、および必要なプロトコルによって異なります。 詳細については、「IoT Hub と Event Hubsの比較」を参照してください。
レイクハウス
- Microsoft Fabric Lakehouse は、主に Delta Parquet ファイルを使用するオープン形式で構造化データと非構造化データを管理および分析するための統合データ アーキテクチャ プラットフォームです。 2 種類のストレージがサポートされています。 これらのストレージの種類は、CSV、Parquet、Delta、アンマネージド ファイルなどのマネージド テーブルです。 マネージド テーブルは自動的に認識されます。 アンマネージド ファイルには、明示的なテーブルの作成が必要です。 このプラットフォームにより、Spark または SQL エンドポイントを介したデータ変換が可能になり、他の Microsoft Fabric コンポーネントとシームレスに統合されます。 このシームレスな統合により、重複することなくデータ共有が可能になります。 この概念は、分析ワークロードで使用される一般的な medallion アーキテクチャと一致します。 詳細については、「Lakehouse in Microsoft Fabric」を参照してください。
リアルタイム分析 の
Azure Databricks の
- 既存の Azure Databricks ソリューションがある場合は、リアルタイム分析のために構造化ストリーミングを引き続き使用することをお勧めします。 詳細については、「Streaming on Databricks」を参照してください。
Microsoft Fabric の
過去に他の Azure サービスをリアルタイム分析に使用した場合、または既存のリアルタイム分析ソリューションがない場合は、「Fabric リアルタイム インテリジェンスと Azure Streaming Solutions」を参照してください。
Microsoft Fabric 構造化ストリーミングでは、Spark 構造化ストリーミングを使用して、ライブ データ ストリームを継続的に追加されたテーブルとして処理および取り込みます。 構造化ストリーミングでは、CSV、JSON、ORC、Parquet、Kafka や Event Hubs などのメッセージング サービスなど、さまざまなファイル ソースがサポートされています。 このアプローチにより、スケーラブルでフォールト トレラントなストリーム処理が保証され、高スループットの運用環境が最適化されます。 詳細については、「Microsoft Fabric Spark Structured Streaming」を参照してください。
データ エンジニアリング
- Spark ノートブックを作成するには、Microsoft Fabric または Azure Databricks を使用します。 詳細については、「Microsoft Fabric ノートブックを使用する方法」を参照してください。 Fabric ノートブックと Azure Synapse Spark の提供内容の比較については、「Fabric Data Engineering と Azure Synapse Sparkの比較」を参照してください。 Azure Databricks ノートブックの詳細については、「Databricks Notebookの概要」を参照してください。
データ ウェアハウスまたはゴールド レイヤーの
- Microsoft Fabric または Azure Databricks を使用して、SQL ベースのウェアハウスまたはゴールド レイヤーを作成できます。 Microsoft Fabric 内でデータ ウェアハウスまたはゴールド レイヤー ストレージ ソリューションを選択する方法の決定ガイドについては、「Microsoft Fabric の意思決定ガイド :データ ストアを選択する」を参照してください。 Azure Databricks の SQL ウェアハウスの種類の詳細については、「SQL ウェアハウスの種類を参照してください。
データ サイエンス
データ サイエンス機能には、Microsoft Fabric または Azure Databricks を使用します。 Microsoft Fabric データ サイエンス オファリングの詳細については、「Microsoft Fabric のデータ サイエンスとは」を参照してください。. Azure Databricks オファリングの詳細については、Databricksでの AI と機械学習の
に関するページを参照してください。 Microsoft Fabric データ サイエンスは Machine Learning とは異なります。 Machine Learning は、ワークフローを管理し、機械学習モデルをデプロイするための包括的なソリューションを提供します。 Microsoft Fabric データ サイエンスは、分析とレポートのシナリオに合わせて調整されています。
Power BI の
Power BI と統合された Azure Databricks を使用すると、シームレスなデータ処理と視覚化が可能になります。 詳細については、「Power BI を Azure Databricksに接続する」を参照してください。
Fabric で Azure Databricks Unity カタログをミラーリングすることで、Azure Databricks Unity カタログによって管理されているデータに Fabric ワークロードから直接アクセスできます。 詳細については、「ミラーリング Azure Databricks Unity カタログ」を参照してください。
Data Lake Storage と Delta Lake から Microsoft Fabric One Lake へのショートカットを作成します。 詳細については、「Databricks Unity Catalog と OneLakeの統合」を参照してください。 Power BI サービスにデータをコピーせずに Direct Lake モードを使用して、Power BI からこのデータに対してクエリを実行できます。 詳細については、「Direct Lake Mode」を参照してください。
シナリオの詳細
既存の Azure Databricks 環境を持ち、必要に応じてレイクハウス アーキテクチャを持つ中小企業は、このパターンの恩恵を受けることができます。 現在、Azure 抽出、変換、読み込みツール (Azure Data Factory など) を使用し、Power BI でレポートを提供しています。 ただし、同じデータ レイク上で異なる独自のデータ形式を使用する複数のデータ ソースが存在する場合もあり、データの重複やベンダーのロックインに関する懸念が生じる可能性があります。 このような状況では、データ管理が複雑になり、特定のベンダーへの依存が増える可能性があります。 また、意思決定のために up-to日付とほぼリアルタイムのレポートが必要になる場合があり、環境全体で AI ツールを採用することに関心があります。
Microsoft Fabric は、オープンで統一された管理された SaaS 基盤であり、次の用途に使用できます。
OneLake を使用すると、ベンダーのロックインを気にすることなく、データを 1 つの場所に格納、管理、分析できます。
Microsoft 365 アプリへの統合により、より迅速にイノベーションを行うことができます。
Power BI ダイレクト レイク モードの利点を利用して、迅速な分析情報を得ることができます。
すべての Microsoft Fabric エクスペリエンスで Copilots を活用できます。
1 つの基盤で AI モデルを開発することで、分析を高速化します。
移動せずにデータを配置し続けることにより、データ サイエンティストが価値を提供する必要がある時間が短縮されます。
貢献
この記事は Microsoft によって管理されています。 もともとは次の共同作成者によって作成されました。
主な作成者:
- ボニータ ルイ |クラウド ソリューション アーキテクト
- ナレン ジョグエンドラン |クラウド ソリューション アーキテクト
非公開の LinkedIn プロファイルを表示するには、LinkedIn にサインインします。
次の手順
- データ エンジニア向けの ラーニング パス
- Microsoft Fabric - MSLearn パス の概要
- Microsoft Fabric - MSLearn モジュール
- Data Lake Storage のストレージ アカウントを作成する
- Event Hubs クイック スタート - Azure portal を使用してイベント ハブを作成する
- メダリオンレイクハウスの建築とは何ですか?
- Microsoft Fabric のレイクハウスとは