Data Factory のエンドツーエンドのシナリオ: 概要とアーキテクチャ
このチュートリアルは、1 時間以内に完了する完全なデータ統合シナリオのステップバイステップ ガイダンスを提供することで、Microsoft Fabric の Data Factory の評価プロセスの高速化を支援します。 このチュートリアルを終了すると、Data Factory の価値と主要な機能を理解し、一般的なエンドツーエンドのデータ統合シナリオを完了する方法を理解できます。
概要: Microsoft Fabric の Data Factory を使用する理由
このセクションでは、一般的な Fabric の役割と、その中で Data Factory が果たす役割について説明します。
Microsoft Fabric の価値を理解する
Microsoft Fabric は、あらゆる企業のすべての分析ニーズに対するワンストップ ショップを提供します。 データ移動、データ レイク、データ エンジニアリング、データ統合とデータ サイエンス、リアルタイム分析、ビジネス インテリジェンスなど、さまざまなサービスが含まれます。 Fabric を使用すると、複数のベンダーの異なるサービスを結び付ける必要はありません。 代わりに、ユーザーは、理解、オンボード、作成、運用が容易な、エンドツーエンドで高度に統合された単一の包括的な製品を利用できます。
Microsoft Fabric の Data Factory の価値を理解する
Fabric の Data Factory は、Power Query の使いやすさと、Azure Data Factory のスケールとパワーを兼ね備えています。 これにより、両方の製品の長所が統合され、統一されたエクスペリエンスが提供されます。 目標は、Factory のData Integration が市民およびプロフェッショナルのどちらのデータ開発者にも適切に機能するようにすることです。 これは、ローコードで AI 対応のデータ準備と変換のエクスペリエンス、ペタバイト規模の変換、ハイブリッドのマルチクラウド接続を備えた数百のコネクタを提供します。 Purview はガバナンスを提供し、サービスにはエンタープライズ規模のデータ操作コミットメント、CI/CD、アプリケーション ライフサイクル管理、監視が用意されています。
はじめに - Data Factory の 3 つの主要コンポーネントについて理解する
- データ インジェスト: パイプラインのコピー アクティビティを使用すると、ペタバイト規模のデータを数百のデータ ソースからデータ レイクハウスに移動して、さらに処理することができます。
- データ変換と準備: Dataflow Gen2 は、300 以上のデータ変換を使用してデータを変換するためのローコード インターフェイスを提供し、変換された結果を Azure SQL データベースやレイクハウスなどの複数の変換先に読み込むことができます。
- エンドツーエンドの統合フローの自動化: パイプラインは、コピー、データフロー、ノートブック アクティビティなどを含む、アクティビティのオーケストレーションを提供します。 これにより、すべてのアクティビティを 1 か所で管理できます。 パイプライン内のアクティビティは、連鎖して順次処理することも、独立して並行処理することもできます。
このエンドツーエンドのデータ統合ユース ケースでは、以下のことを学習します。
- パイプラインでコピー アシスタントを使用してデータを取り込む方法
- データフローを使用してデータを変換する方法 (コードなしのエクスペリエンスを使用するか、独自のコードを記述してスクリプトまたはノートブック アクティビティでデータを処理する)
- トリガーと柔軟な制御フロー アクティビティを含むパイプラインを使用して、エンドツーエンドのデータ統合フロー全体を自動化する方法。
アーキテクチャ
次の 50 分で、エンドツーエンドのデータ統合シナリオを完了する必要があります。 これには、ソース ストアからレイクハウスの Bronze テーブルへの生データの取り込み、すべてのデータの処理、データ レイクハウスの Gold テーブルへの移動、すべてのジョブの完了時に通知する電子メールの送信、最後にスケジュールに基づいて実行するフロー全体の設定が含まれます。
このシナリオは、次の 3 つのモジュールに分かれています。
- モジュール 1: Data Factory を使用してパイプラインを作成し、Blob Storage からデータ レイクハウスの Bronze テーブルに生データを取り込みます。
- モジュール 2: Data Factory のデータフローを使用してデータを変換し、Bronze テーブルの生データを処理し、それをデータ レイクハウスの Gold テーブルに移動します。
- モジュール 3: 最初のデータ統合体験を完了し、すべてのジョブが完了時に通知する電子メールを送信し、最後に、スケジュールに基づいて実行するフロー全体を設定します。
チュートリアルのデータ ソースとして、サンプル データセット NYC-Taxi を使用します。 完了すると、Microsoft Fabric の Data Factory を使用して、特定期間のタクシー料金の毎日の割引に関する分析情報を得ることができます。
関連するコンテンツ
Microsoft Fabric の Data Factory を使用した最初のデータ統合に関するエンドツーエンドのチュートリアルのこの概要では、以下を学習しました。
- Microsoft Fabric の価値と役割
- Fabric の Data Factory の価値と役割
- Data Factory の 主な機能
- このチュートリアルの学習内容
次のセクションに進み、データ パイプラインを作成します。