次の方法で共有


レイクハウスのチュートリアル: レイクハウスにデータを取り込む

このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。

前提条件

データを取り込む

このセクションでは、Data Factory パイプラインの [データのコピー] アクティビティ を使用して、Azure ストレージ アカウントから以前に作成したレイクハウスの [ファイル] セクションにサンプル データを取り込みます。

  1. 左側のナビゲーション ウィンドウで [ワークスペース] を選択し、[ワークスペース] メニューから新しいワークスペースを選択します。 ワークスペースのアイテム ビューが表示されます。

  2. ワークスペース リボンの [+新規] メニュー項目から、[データ パイプライン] を選択します。

    新しいデータ パイプラインを作成する方法を示すスクリーンショット。

  3. [新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。 新しいデータ ファクトリ パイプラインが作成され、開かれます。

  4. 次に、HTTP 接続を設定して、サンプルの World Wide Importers データをレイクハウスにインポートします。 [新しいソース] の一覧から [詳細を表示] を選択し、Http を検索して選択します。

    HTTP ソースを選択する場所を示すスクリーンショット。

  5. [データ ソースへの接続] ウィンドウで、下の表の詳細を入力し、[次へ] を選択します。

    プロパティ
    URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
    つながり 新しいつながりの作成
    接続名 wwisampledata
    データ ゲートウェイ なし
    認証の種類 匿名

    Http 接続を構成するためのパラメーターを示すスクリーンショット。

  6. 次の手順では、[バイナリ コピー] を有効にし、ソースが .zip ファイルであるため、[圧縮の種類] として [ZipDeflate (.zip)] を選択します。 他のフィールドは既定値のままにして、[次へ] をクリックします。

    圧縮の種類を選択する方法を示すスクリーンショット。

  7. [データ変換先に接続] ウィンドウで、[ルート フォルダー][ファイル] として指定し、[次へ] をクリックします。 これにより、データがレイクハウスの [ファイル] セクションに書き込まれます。

    レイクハウスの接続先の接続設定を示すスクリーンショット。

  8. 接続先の [ファイル形式] として [バイナリ] を選択します。 [次へ] をクリックし、[保存と実行] をクリックします。 定期的にデータを更新するようにパイプラインをスケジュールできます。 このチュートリアルでは、パイプラインを 1 回だけ実行します。 データ コピー プロセスの完了には約 10 - 15 分かかります。

    コピー先のファイル形式を示すスクリーンショット。

  9. パイプラインの実行とアクティビティは、[出力] タブで監視できます。また、パイプライン名の横にある眼鏡アイコンを選択しても、詳細なデータ転送情報を表示できます。このアイコンは、名前の上にマウス ポインターを合わせると表示されます。

    コピー パイプライン アクティビティの状態を示すスクリーンショット。

  10. パイプラインの実行が正常に完了したら、レイクハウス (wwilakehouse) に移動し、エクスプローラーを開いてインポートされたデータを確認します。

    レイクハウスに移動する方法を示すスクリーンショット。

  11. WideWorldImportersDW フォルダーがエクスプローラー ビューに存在し、すべてのテーブルのデータが含まれていることを確認します。

    ソース データがレイクハウス エクスプローラーにコピーされていることを示すスクリーンショット。

  12. データは、レイクハウス エクスプローラーの [ファイル] セクションに作成されます。 GUID を持つ新しいフォルダーには、必要なすべてのデータが含まれています。 GUID の名前を wwi-raw-data に変更します。

増分データを Lakehouse に読み込むには、「データ ウェアハウスから Lakehouse へのデータの増分読み込み」を参照してください。

次のステップ