Microsoft Fabric のデータフロー Gen2 について
このシナリオでは、データを標準化して企業からアクセスできるようにするセマンティック モデルを開発する必要があります。 データフロー Gen2 を使用すると、さまざまなデータ ソースに接続し、データの準備と変換を行うことができます。 データをレイクハウスに直接配置することも、他の宛先向けのデータ パイプラインを使用することもできます。
データフローとは
"データフロー" は、スケーラブルなデータ変換プロセスを構築および実行するためのクラウドベースの ETL ("抽出、変換、読み込み") ツールの一種です。
データフロー Gen2 を使用すると、さまざまなソースからデータを抽出し、幅広い変換操作を使用して変換し、変換先に読み込むことができます。 Power Query Online を使用して、これらのタスクをビジュアル インターフェイスで実行することもできます。
基本的に、データフローにはデータ準備時間を短縮するためのすべての変換が含まれているため、新しいテーブルに読み込んだり、データ パイプラインに含めたり、データ アナリストがデータ ソースとして使用したりできます。
データフロー Gen2 の使用方法
従来、データ エンジニアは、データを抽出、変換、読み込んで、ダウンストリーム分析に使用可能な形式にするのにかなりの時間を費やしています。 データフロー Gen2 の目的は、Power Query Online を使用して ETL タスクを実行するための簡単で再利用可能な方法を提供することです。
データ パイプラインの使用を選択した場合のみ、データをコピーし、任意のコーディング言語を使用してデータの抽出、変換、読み込みを行います。 その代わりに、まずデータフロー Gen2 を作成し、データを抽出して変換することができます。 レイクハウスやその他の宛先にデータを読み込むこともできます。 これで、企業はキュレーションされたセマンティック モデルを簡単に使用できるようになります。
データの宛先のデータフローへの追加は省略可能で、データフローはすべての変換ステップを保持します。 変換後に他のタスクを実行するか、別の宛先にデータを読み込むには、データ パイプラインを作成し、データフロー Gen2 アクティビティをオーケストレーションに追加します。
もう 1 つの選択肢として、データ パイプラインとデータフロー Gen2 を ELT (抽出、読み込み、変換) プロセスに使用することが考えられます。 このためには、パイプラインを使用してデータを抽出し、レイクハウスなどの目的の宛先に読み込みます。 その後、データフロー Gen2 を作成して、レイクハウス データに接続し、データをクレンジングおよび変換します。 この場合、データ アナリストがレポートを開発できるようにキュレーションされたセマンティック モデルとしてデータフローを提供することになります。
データフローは、水平方向にパーティション分割することもできます。 グローバル データフローを作成すると、データ アナリストはデータフローを使用して、特定のニーズに特化したセマンティック モデルを作成できます。
データフローを使用して、データ ソースへの接続をさらに作成する必要がなくなるように、再利用可能な ETL ロジックを促進させることができます。 データフローはさまざまな変換を提供していて、手動で、更新スケジュールに基づいて、またはデータ パイプライン オーケストレーションの一部として実行できます。
ヒント
データ アナリストが Power BI Desktop 経由でもデータフローに接続できるように、データフローは必ず検出可能にしてください。 これにより、レポート開発のためのデータ準備作業が削減されます。
特典と制限
Microsoft Fabric でデータを ETL または ELT する方法は複数あります。 データフロー Gen2 の使用に関する利点と制限事項を考慮してください。
利点:
- 標準の日付ディメンション テーブルなど、一貫性のあるデータを使用してデータを拡張します。
- セルフサービス ユーザーがデータ ウェアハウスのサブセットに個別にアクセスできるようにします。
- データフローを使用してパフォーマンスを最適化します。データを 1 回抽出すると再利用できるため、低速なソースのデータ更新時間が短縮されます。
- データフローを大規模なアナリスト グループにのみ公開することで、データ ソースの複雑さを簡素化します。
- ユーザーがデータをクリーンおよび変換してから宛先に読み込むようにすることで、データの一貫性と品質を確保します。
- さまざまなソースからデータを取り込むローコード インターフェイスを提供することで、データ統合を簡素化します。
制限事項:
- データフローは、データ ウェアハウスの置き換えではありません。
- 行レベルのセキュリティがサポートされません。
- ファブリック容量ワークスペースが必要です。