レイクハウスのチュートリアル: レイクハウスにデータを取り込む
このチュートリアルでは、Wide World Importers (WWI) からレイクハウスに追加のディメンション テーブルと ファクト テーブル を取り込みます。
前提条件
- Lakehouse がない場合は、Lakehouse を作成する必要があります。
データを取り込む
このセクションでは、Data Factory パイプラインの [データのコピー] アクティビティ を使用して、Azure ストレージ アカウントから以前に作成したレイクハウスの [ファイル] セクションにサンプル データを取り込みます。
左側のナビゲーション ウィンドウで [ワークスペース] を選択し、[ワークスペース] メニューから新しいワークスペースを選択します。 ワークスペースのアイテム ビューが表示されます。
ワークスペース リボンの [+新規] メニュー項目から、[データ パイプライン] を選択します。
[新しいパイプライン] ダイアログ ボックスで、名前を IngestDataFromSourceToLakehouse として指定し、[作成] を選択します。 新しいデータ ファクトリ パイプラインが作成され、開かれます。
新しく作成したデータ ファクトリ パイプラインで、[パイプライン アクティビティ] を選択してパイプラインにアクティビティを追加し、[データのコピー] を選択します。 このアクションにより、データのコピー アクティビティがパイプライン キャンバスに追加されます。
キャンバスから新しく追加されたデータのコピー アクティビティを選択します。 アクティビティ プロパティがキャンバスの下のペインに表示されます (場合によっては、上端をドラッグしてペインを上に展開する必要があります)。 プロパティ ウィンドウの [全般] タブで、[名前] フィールドに Data Copy to Lakehouse と入力します。
選択したデータのコピー アクティビティの [ソース] タブで、[データ ストアの種類] に [外部] を選択し、[+ 新規] を選択してデータ ソースへの新しい接続を作成します。
このチュートリアルのため、すべてのサンプル データが Azure Blob Storage のパブリック コンテナーで入手できます。 このコンテナーに接続して、そこからデータをコピーします。 [新しい接続] 画面で、[Azure Blob Storage]、[続行] の順に選択します。
[新しい接続] 画面で、次の詳細を入力し、[作成] を選択してデータ ソースへの接続を作成します。
プロパティ 値 アカウント名または URL https://azuresynapsestorage.blob.core.windows.net/sampledata
つながり 新しい接続を作成します。 接続名 wwisampledata 認証の種類 匿名 新しい接続が作成され、データのコピー アクティビティの [ソース] タブに戻ると、新しく作成された接続が既定で選択されます。 接続先の設定に移動する前に、次のプロパティを指定します。
プロパティ 値 データ ストアの種類 外部 接続 wwisampledata ファイル パスの種類 ファイル パス ファイル パス コンテナー名 (最初のテキスト ボックス): sampledata
ディレクトリ名 (2 番目のテキスト ボックス): WideWorldImportersDW/parquetRecursively オン ファイル形式 バイナリ 選択したデータのコピー アクティビティの [コピー先] タブで、次のプロパティを指定します。
プロパティ 値 データ ストアの種類 ワークスペース ワークスペースのデータ ストアの種類 レイクハウス レイクハウス wwilakehouse ルート フォルダー ファイル ファイル パス ディレクトリ名 (最初のテキスト ボックス): wwi-raw-data ファイル形式 バイナリ データのコピー アクティビティの構成が完了しました。 上部のリボンの [保存] アイコン ([ホーム] の下) を選択して変更を保存し、[実行] を選択してパイプラインとそのアクティビティを実行します。 また、ビジネス要件を満たすために、定義された間隔でデータを更新するようにパイプラインをスケジュールすることもできます。 このチュートリアルでは、[実行] ボタンを選択してパイプラインを 1 回だけ実行します。
このアクションにより、基になるデータ ソースから指定したレイクハウスへのデータ コピーがトリガーされ、完了するまでに最大で 1 分かかる場合があります。 キャンバス上の任意の場所をクリックすると表示される [出力] タブで、パイプラインとそのアクティビティの実行を監視できます。 必要に応じて、名前をポイントしたときに表示される眼鏡アイコンを選択して、データ転送の詳細を確認できます。
データがコピーされたら、ワークスペースのアイテム ビューに移動し、新しい Lakehouse (wwilakehouse) を選択してエクスプローラー ビューを起動します。
[エクスプローラー] ビューに新しいフォルダー wwi-raw-data があり、すべてのテーブルのデータがそこにコピーされることを確認します。
増分データを Lakehouse に読み込むには、「データ ウェアハウスから Lakehouse へのデータの増分読み込み」を参照してください。