次の方法で共有


データ ストレージ内の Microsoft Graph データを分析する

この記事では、ビジネス プロセスと生産性を向上させるためにエンタープライズ コラボレーション データの複雑な分析を必要とするビジネス シナリオの一般的な Microsoft Graph 統合パターンについて説明します。

このシナリオは、大量の抽出された Microsoft 365 データに依存しており、次の要件があります。

  • データ統合の種類。
  • Microsoft 365 境界からアプリへの送信データ フロー。
  • 複数の月にまたがる大量のデータ。
  • 比較的高いデータ待機時間。最初のデータ抽出には、最大 1 年前のメッセージが含まれる場合があります。

このシナリオに最適なオプションは、Microsoft Graph Data Connect を使用することです。 クライアントは、Azure Data Lake や Azure Synapse などの大容量データ ストレージを設定し、Azure サブスクリプションを有効にし、Azure Data FactoryまたはAzure Synapse パイプラインを構成する必要があります。

次の図は、このソリューションのアーキテクチャを示しています。

Microsoft Entra IDで認証し、Microsoft Graph に接続し、Azure Data Lake にコンテンツをエクスポートするサード パーティ製アプリを示す図。

ソリューション コンポーネント

ソリューション アーキテクチャには、次のコンポーネントが含まれています。

  • Microsoft Graph Data Connect は、詳細なデータの同意を得て Microsoft 365 データの大規模な抽出を可能にし、暗号化、geo フェンス、監査、ポリシーの適用など、すべての Azure ネイティブ サービス機能をサポートします。
  • Azure Data Factory (ADF) を使用すると、ETL (抽出、変換、読み込み) と ELT (抽出、読み込み、変換) を簡単に構築でき、直感的な環境でコードフリーで処理したり、コードを記述したりできます。
  • Azure Data Lake を使用すると、さまざまな形式で大量の構造化データと非構造化データを保持できます。
  • Microsoft Entra ID。これは Microsoft Graph API の認証を管理するために必要であり、OAuth フローを有効にするために委任されたアクセス許可とアプリケーションのアクセス許可をサポートします。

考慮事項

次の考慮事項は、この統合パターンの使用をサポートします。

  • 可用性: クライアント ADF は、スケジュールまたはアドホックベースで一括でデータを抽出できます。

  • 待機時間: このシナリオのデータ待機時間は、履歴データの抽出や、スケジュールされたタスクとして実行される非同期プロセスによる Microsoft Graph Data Connect ストレージへの最新のデータの配信によって異なる場合があります。 ADF ではバッチ処理とファイル転送が使用されるため、ADF の大規模なデータ抽出のパフォーマンスは、詳細な HTTP API よりも高速です。

  • スケーラビリティ: このアーキテクチャを使用すると、環境のデータ移動スループットを最大化するパイプラインを開発できます。 これらのパイプラインでは、次のリソースを完全に利用できます。

    • ソース データ ストアと宛先データ ストア間のネットワーク帯域幅。
    • ソースまたは宛先データ ストアの 1 秒あたりの入出力操作 (IOPS) と帯域幅。
  • ソリューションの複雑さ: このデータエグレス ソリューションは、カスタム コードを必要とせず、コンポーネントが少なく、データ待機時間に耐えられるため、統合の観点から見ると複雑さが低くなります。