クイック スタート: データフローとデータ パイプラインを使用したデータの移動と変換
このチュートリアルでは、データフローとデータ パイプラインのエクスペリエンスで強力かつ包括的な Data Factory ソリューションを作成する方法について学習します。
前提条件
開始するには、次の前提条件を満たす必要があります。
- アクティブなサブスクリプションが含まれるテナント アカウント。 無料アカウントを作成します。
- Microsoft Fabric が有効になっているワークスペースがあることを確認します: 既定の個人用ワークスペースではないワークスペースを作成してください。
- テーブル データを含む Azure SQL データベース。
- BLOB ストレージ アカウント。
パイプラインと比較したデータフロー
データフロー Gen2 を使用すると、低コード インターフェイスと 300 以上のデータと AI ベースの変換を利用できるため、他のどのツールよりも簡単にデータをクリーンアップ、準備、および変換できます。 データ パイプラインを使用すると、すぐに使用できる豊富なデータ オーケストレーション機能により、企業のニーズを満たす柔軟なデータ ワークフローを作成できます。 パイプラインでは、タスクを実行するアクティビティの論理的なグループを作成できます。これには、データフローを呼び出してデータをクリーンアップおよび準備することが含まれる場合があります。 2 つの間にはいくつかの機能が重複していますが、特定のシナリオに使用する機能の選択は、パイプラインの完全なリッチ度を必要とするか、データフローのよりシンプルで制限された機能を使用できるかによって異なります。 詳細については、「Fabric の判断ガイドを」参照してください
データフローを使用したデータ変換
データフローを設定するには、次の手順に従います。
手順 1: データフローを作成する
Fabric が有効になっているワークスペースを選択し、[新規] を選択します。 次に、[データフロー (Gen2)] を選択します。
データフロー エディターのウィンドウが表示されます。 [SQL Server からインポート] カードを選択します。
手順 2: データを取得する
次に表示される [データ ソースへの接続] ダイアログで、Azure SQL データベースに接続するための詳細を入力し、[次へ] を選択します。 この例では、前提条件で Azure SQL データベースを設定する際に構成されたサンプル データベースの [AdventureWorksLT] を使用します。
変換するデータを選んでから、[作成] を選択します。 このクイックスタートでは、Azure SQL DB 用に提供されているサンプル データの [AdventureWorksLT] から [SalesLT.Customer] を選択した後、[関連テーブルの選択] ボタンを選択し、他の 2 つの関連テーブルを自動的に含めます。
手順 3: データを変換する
選択されていない場合は、ページの下部にあるステータス バーに沿って [ダイアグラム ビュー] ボタンを選択するか、Power Query エディターの上部にある [表示] メニューの下で [ダイアグラム ビュー] を選択します。 これらのオプションのいずれかを使用して、ダイアグラム ビューを切り替えることができます。
[SalesLT Customer] クエリを右クリックするか、クエリの右側にある縦方向の省略記号を選択してから、[クエリのマージ] を選択します。
マージを構成するには、マージの右側のテーブルとして [SalesLTOrderHeader] テーブルを選択し、結合列として各テーブルから [CustomerID] 列を選択して、結合の種類として [左外部] を選択します。 その後、 [OK] を選択してマージ クエリを追加します。
作成したばかりの新しいマージ クエリから、上に矢印が付いたデータベース シンボルのような [データ同期先の追加] ボタンを選択します。 その後、同期先の型として [Azure SQL データベース] を選択します。
マージ クエリが公開される Azure SQL データベース接続に関する詳細を指定します。 この例では、同期先のデータ ソースとして使用した AdventureWorksLT データベースも使用できます。
データを格納するデータベースを選んで、テーブル名を指定してから、[次へ] を選択します。
[宛先の設定を選択する] ダイアログで既定の設定をそのままにして、ここでは、変更を加えずにただ [設定の保存] を選択します。
データフロー エディターのページで [公開] を選択して、データフローを公開します。
データ パイプラインを使用したデータの移動
Dataflow Gen2 を作成したら、パイプラインで操作することができます。 この例では、データフローから生成されたデータを、Azure Blob Storage アカウント内のテキスト形式にコピーします。
手順 1: 新規のデータ パイプラインを作成する
ワークスペースから [新規] を選択した後、[データ パイプライン] を選択します。
パイプラインに名前を付けてから、[作成] を選択します。
手順 2: データフローを構成する
[アクティビティ] タブで [データフロー] を選択して、新しいデータフロー アクティビティをデータ パイプラインに追加します。
パイプライン キャンバスでデータフローを選択してから、[設定] タブを選択します。また、先ほど作成したデータフローをドロップダウン リストから選択します。
[保存] を選択してから、[実行] を選択してデータフローを実行し、前の手順で設計したマージされたクエリ テーブルを最初に設定します。
手順 3: コピー アシスタントを使用してコピー アクティビティを追加する
キャンバス上の [データのコピー] を選び、[コピー アシスタント] ツールを開いて作業を開始します。 または、リボンの [アクティビティ] タブの [データのコピー] ドロップ ダウン リストから [コピー アシスタントを使用する] を選びます。
データ ソースの種類を選んで、データ ソースを選択します。 このチュートリアルでは、先ほどデータフローの作成時に使用した Azure SQL Database を使って、新規のマージ クエリを生成します。 サンプル データ オファリングの下部までスクロールして、[Azure] タブを選択してから、[Azure SQL Database] を選択します。 [Next](次へ) をクリックして続行します。
[新しい接続の作成] を選んで、データ ソースへの接続を作成します。 必要な接続情報をパネルに入力し、[データベース] に [AdventureWorksLT] を入力します。ここでは、データフローでマージ クエリを生成しました。 [次へ] を選択します。
先ほどのデータフロー ステップで生成したテーブルを選択してから、[次へ] を選択します。
同期先として Azure Blob Storage を選択してから、次へ を選択します。
[新しい接続の作成] を選んで、同期先への接続を作成します。 接続の詳細を入力してから、[次へ] を選択します。
[フォルダー パス] を選択し、[ファイル名] を指定してから、[次へ] を選択します。
再び [次へ] を選択して、既定のファイル形式、列区切り記号、行区切り記号、圧縮の種類 (必要に応じてヘッダーを含む) を承諾します。
設定の最終処理を行います。 その後、確認して [保存 + 実行] を選択すると、プロセスが完了します。
手順 5: データ パイプラインを設計および保存し、データを実行して読み込む
[データフロー] アクティビティの後に [コピー] アクティビティを実行するには、[データフロー] アクティビティの [成功] から [コピー] アクティビティにドラッグします。 Copy アクティビティは、Dataflow アクティビティが成功した後にのみ実行されます。
[保存] を選択して、データ パイプラインを保存します。 次に、[実行] を選択してデータ パイプラインを実行し、データを読み込みます。
パイプラインの実行をスケジュールする
パイプラインの作成とテストが完了したら、自動的に実行されるようにスケジュールできます。
パイプライン エディター ウィンドウの [ホーム] タブで、[スケジュール] を選択します。
必要に応じてスケジュールを設定します。 この例では、年の終わりまで毎日午後 8 時に実行されるようにパイプラインをスケジュールします。
関連するコンテンツ
このサンプルでは、Dataflow Gen2 を作成し、マージ クエリを作成して Azure SQL データベースに格納するように構成した後、データベースから Azure Blob Storage のテキスト ファイルにデータをコピーする方法を示しています。 以下の方法を学習しました。
- データフローを作成する。
- データフローを使用してデータを変換する。
- データフローを使用してデータ パイプラインを作成する。
- パイプラインでステップの実行を順序付ける。
- コピー アシスタントを使用してデータをコピーする。
- データ パイプラインを実行およびスケジュールする。
次は、パイプライン実行の監視について詳しく説明します。