レイクハウスのチュートリアル: レイクハウスにデータを取り込む
このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。
前提条件
- Lakehouse がない場合は、Lakehouse を作成する必要があります。
データを取り込む
このセクションでは、Data Factory パイプラインの [データのコピー] アクティビティ を使用して、Azure ストレージ アカウントから以前に作成したレイクハウスの [ファイル] セクションにサンプル データを取り込みます。
左側のナビゲーション ウィンドウで [ワークスペース] を選択し、[ワークスペース] メニューから新しいワークスペースを選択します。 ワークスペースのアイテム ビューが表示されます。
ワークスペース リボンの [+新規] メニュー項目から、[データ パイプライン] を選択します。
[新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。 新しいデータ ファクトリ パイプラインが作成され、開かれます。
次に、HTTP 接続を設定して、サンプルの World Wide Importers データをレイクハウスにインポートします。 [新しいソース] の一覧から [詳細を表示] を選択し、Http を検索して選択します。
[データ ソースへの接続] ウィンドウで、下の表の詳細を入力し、[次へ] を選択します。
プロパティ 値 URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
つながり 新しいつながりの作成 接続名 wwisampledata データ ゲートウェイ なし 認証の種類 匿名 次の手順では、[バイナリ コピー] を有効にし、ソースが .zip ファイルであるため、[圧縮の種類] として [ZipDeflate (.zip)] を選択します。 他のフィールドは既定値のままにして、[次へ] をクリックします。
[データ変換先に接続] ウィンドウで、[ルート フォルダー] を [ファイル] として指定し、[次へ] をクリックします。 これにより、データがレイクハウスの [ファイル] セクションに書き込まれます。
接続先の [ファイル形式] として [バイナリ] を選択します。 [次へ] をクリックし、[保存と実行] をクリックします。 定期的にデータを更新するようにパイプラインをスケジュールできます。 このチュートリアルでは、パイプラインを 1 回だけ実行します。 データ コピー プロセスの完了には約 10 - 15 分かかります。
パイプラインの実行とアクティビティは、[出力] タブで監視できます。また、パイプライン名の横にある眼鏡アイコンを選択しても、詳細なデータ転送情報を表示できます。このアイコンは、名前の上にマウス ポインターを合わせると表示されます。
パイプラインの実行が正常に完了したら、レイクハウス (wwilakehouse) に移動し、エクスプローラーを開いてインポートされたデータを確認します。
WideWorldImportersDW フォルダーがエクスプローラー ビューに存在し、すべてのテーブルのデータが含まれていることを確認します。
データは、レイクハウス エクスプローラーの [ファイル] セクションに作成されます。 GUID を持つ新しいフォルダーには、必要なすべてのデータが含まれています。 GUID の名前を wwi-raw-data に変更します。
増分データを Lakehouse に読み込むには、「データ ウェアハウスから Lakehouse へのデータの増分読み込み」を参照してください。