共用方式為


模組 1:使用 Data Factory 建立管線

此課程模組需要 10 分鐘時間,使用管線中的複製活動,將來源存放區未經處理資料擷取至 Data Lakehouse 的銅級資料表。

課程模組 1 中的高階步驟如下:

  1. 建立資料管線。
  2. 使用管線中的複製活動,將範例資料載入 Data Lakehouse。

建立資料管線

  1. 需要具有有效訂用帳戶的 Microsoft Fabric 租用戶帳戶。 建立免費帳戶

  2. 請確定您有啟用 Microsoft Fabric 的工作區:建立工作區

  3. 登入 Power BI

  4. 選取畫面左下方的預設 Power BI 圖示,然後切換至 Data Factory 體驗。

    顯示 Data Factory 體驗的選取範圍的螢幕擷取畫面。

  5. 選取 [資料管線],並提供管線名稱。 然後選取建立

    Data Factory 起始頁面的螢幕擷取畫面,其中已選取按鈕以建立新的資料管線。

    顯示要為新管線提供名稱之對話方塊的螢幕擷取畫面。

使用管線中的複製活動,將範例資料載入 Data Lakehouse

步驟 1:使用複製助理來設定複製活動。

選取 [複製資料],打開複製助理工具。

顯示從新管線開始頁面選取 [複製資料活動] 的螢幕擷取畫面。

步驟 2:在複製助理中設定您的設定。

  1. [複製資料] 對話方塊隨即顯示,並醒目提示第一個步驟 [選擇資料來源]。 視需要向下捲動至 [資料來源] 區段,然後選取 [Azure Blob 儲存體] 資料來源類型。 然後選取下一步

    顯示 [選擇資料源] 索引標籤上複製助理中 Azure Blob 儲存體資料來源類型之選取的螢幕擷取畫面。

  2. 在下一個步驟中,選取 [建立新連線],然後在 https://nyctaxisample.blob.core.windows.net/sample 上提供裝載為本教學課程所提供範例資料的 Blob 儲存體 URL。 驗證種類為 [Anonymous]。 提供 URL 之後,選取 [下一步]

    顯示建立新的 Azure Blob 儲存體連線,以及教學課程中範例資料 URL 的螢幕擷取畫面。

  3. [連線至資料來源] 步驟隨即出現,而且一開始,您會看到 [無法列出檔案] 的錯誤,因為權限只授與 Blob 儲存體中的 [範例] 資料夾。 提供資料夾名稱、[範例],然後選取 [重試]

    顯示 [無法列出檔案] 錯誤的螢幕擷取畫面,其中提供了文件夾名稱範例。

    注意

    Blob 儲存體資料夾會區分大小寫,且應該全部使用小寫。

  4. Blob 儲存體瀏覽器隨即出現。 選取 NYC-Taxi-Green-2015-01.parquet 檔案,並等候資料預覽出現。 然後選取下一步

    顯示 NYC-Taxi-Green-2015-01.parquet 檔案的預覽資料的螢幕擷取畫面。

  5. 針對複製助理的 [選擇資料目的地] 步驟,選取 [Lakehouse],然後選取 [下一步]

    顯示複製資料助理之 [選擇資料目的地] 索引標籤上 Lakehouse 目的地選取的螢幕擷取畫面。

  6. 在出現的資料目的地組態頁面上,選取 [建立新的 Lakehouse],然後輸入新 Lakehouse 的名稱。 再次選取 [下一步]

    顯示複製助理的資料目的地設定頁面,選擇 [建立新的 Lakehouse] 選項並提供 Lakehouse 名稱的螢幕擷取畫面。

  7. 現在,在 [選取並對應至資料夾路徑或資料表] 頁面上,設定 Lakehouse 目的地的詳細資料。 選取 [根資料夾] 的 [資料表]、提供資料表名稱,然後選擇 [覆寫] 動作。 請勿選取 [覆寫] 資料表動作之後出現的 [啟用分割區] 核取方塊。

    在「選取並對應至資料夾路徑或資料表」步驟,顯示 [複製資料助理] 的 [連接到資料目的地] 索引標籤的螢幕擷取畫面。

  8. 最後,在複製資料助理的 [檢閱 + 儲存] 頁面上,檢閱設定。 在本教學課程中,取消選取 [立即啟動資料傳輸] 核取方塊,因為我們在下一個步驟中手動執行活動。 然後選取確定

    顯示 [檢閱 + 儲存] 頁面上 [複製資料助理] 的螢幕擷取畫面。

步驟 3:執行並檢視複製活動的結果。

  1. 在管線編輯器中選取 [執行] 索引標籤。 然後選取 [執行] 按鈕,根據提示 [儲存並執行],以執行複製活動。

    顯示管線執行索引標籤的螢幕擷取畫面,其中醒目提示了 [執行] 按鈕。

    顯示 [儲存並執行] 對話方塊的螢幕擷取畫面,其中醒目提示 [儲存並執行] 按鈕。

  2. 您可以監視執行,並在管線畫布下方的 [輸出] 索引標籤上檢查結果。 選取 [執行詳細資料] 按鈕 (當您將滑鼠停留在執行管線執行時出現的「眼鏡」圖示),以檢視執行詳細資料。

    顯示管線 [輸出] 索引標籤上 [執行詳細資料] 按鈕的螢幕擷取畫面。

  3. 執行詳細資料會顯示讀取和寫入的 1,508,501 個資料列。

    管線執行的複製資料詳細資料的螢幕擷取畫面。

  4. 展開 [持續時間明細] 區段,以查看複製活動的每個階段持續時間。 檢閱複製詳細資料後,選取 [關閉]

    顯示執行複製活動執行持續時間明細的螢幕擷取畫面。

在此端對端教學課程的第一個課程模組 (使用 Microsoft Fabric 中的 Data Factory 進行首次資料整合) 中,您已了解如何:

  • 建立資料管線。
  • 將複製活動新增至管線。
  • 使用範例資料並建立 Data Lakehouse,將資料儲存至新的資料表。
  • 執行管線並檢視其詳細資料和持續時間明細。

現在請繼續前往下一節,以建立資料流程。