快速入門:使用資料流和資料管線來移動和轉換資料
在本教學課程中,您會探索資料流和資料管線體驗如何建立強大且完整的 Data Factory 解決方案。
必要條件
開始之前,您必須具備下列先決條件:
- 具有有效訂閱的租用戶帳戶。 建立免費帳戶。
- 請確定您已啟用 Microsoft Fabric 的工作區:建立工作區 (不是 My Workspace 的預設)。
- 具有資料表資料的 Azure SQL 資料庫。
- Blob 儲存體帳戶。
與管線比較的資料流程
數據流 Gen2 讓您可以使用低程式碼介面和超過300種基於資料和AI的轉換功能,輕鬆清理、準備和轉換數據,比其他任何工具更具靈活性。 資料管線可啟用豐富的現成資料協調流程功能,以撰寫符合您企業需求的彈性資料工作流程。 在管線中,您可以建立執行工作之活動的邏輯群組,其中可能包含呼叫資料流程來清除和準備您的資料。 雖然這兩者之間有一些功能重疊,但要針對特定案例使用的選擇取決於您是否需要管線的完整豐富性,或是可以使用更簡單但更有限的數據流功能。 如需詳細資訊,請參閱 網狀架構決策指南
使用資料流程來轉換資料
請依以下步驟設定資料流程。
步驟 1:建立資料流程
步驟 2:取得資料
在接下來顯示的連接到資料來源對話方塊中,輸入要連線到 Azure SQL 資料庫的詳細資料,然後選取下一步。 在此範例中,您會使用在必要條件中設定 Azure SQL 資料庫時所設定的 AdventureWorksLT 範例資料庫。
選取您想要轉換的資料,然後選取建立。 在本快速入門中,從提供給 Azure SQL DB 的 AdventureWorksLT 範例資料中選取 SalesLT.Customer,然後選取選取相關資料表按鈕,以自動包含另外兩個相關的資料表。
步驟 3:轉換您的資料
如果未選取資料,請沿著頁面底部的狀態列選取圖表檢視按鈕,或選取 Power Query 編輯器頂端檢視功能表下的圖表檢視。 任一選項都可以切換圖表檢視。
以滑鼠右鍵按一下 SalesLT 客戶查詢,或選取查詢右側的垂直省略符號,然後選取合併查詢。
透過選取 SalesLTOrderHeader 資料表做為合併的右方資料表、來自每個資料表的 CustomerID 資料行做為聯結資料行,並將左方外部做為聯結種類,以設定合併。 然後選取確定以新增合併查詢。
從您建立的新合併查詢中,選取 [新增數據目的地] 按鈕,其看起來像資料庫符號,上面有箭號。 然後選取 Azure SQL 資料庫做為目的地類型。
提供要發佈合併查詢之 Azure SQL 資料庫連接的詳細資料。 在此範例中,您也可以使用我們作為目的地資料來源的 AdventureWorksLT 資料庫。
選擇要儲存資料的資料庫,並提供資料表名稱,然後選取下一步。
您可以在選擇目的地設定對話方塊中保留預設設定,只要選取儲存設定,即不會在此進行任何變更。
選取資料流程編輯器頁面上的重新發佈,以發佈資料流程。
使用資料管線來移動資料
現在您已建立 Dataflow Gen2,即可在管線中操作。 在此範例中,您會將資料從資料流程產生的資料複製到 Azure Blob 儲存體帳戶中的文字格式。
步驟 1:建立新的資料管線
從您的工作區中,選取新增,然後選取資料管線。
為您的管道命名,然後選取建立。
步驟 2:設定資料流程
透過選取活動索引標籤中的資料流程,將新的資料流程活動新增至您的資料管線。
選取管線創作區上的資料流程,然後選取設定索引標籤。從下拉式清單中選擇您先前建立的資料流程。
選取儲存,然後選取執行來執行資料流程,以一開始填入您在上一個步驟中設計的合併查詢資料表。
步驟 3:使用複製助理來新增複製活動
選取創作區上的複製資料來開啟複製助理工具以開始使用。 或者,從功能區中活動索引標籤底下的複製資料下拉式清單中選取使用複製助理。
透過選取資料來源類型,選擇您的資料來源。 在本教學課程中,您會使用先前建立資料流程以產生新合併查詢時使用的 Azure SQL 資料庫。 向下卷動至範例資料供應項目下方,然後選取 Azure 索引標籤,然後選取 Azure SQL 資料庫。 然後選取 [下一步] 以繼續操作。
透過選取建立新連線,建立資料來源的連線。 在面板上填入必要的連線資訊,然後輸入資料庫的 AdventureWorksLT (其中我們在資料流程中產生合併查詢)。 然後選取下一步。
選取您稍早在資料流程步驟中產生的資料表,然後選取下一步。
對於目的地,選擇 Azure Blob 儲存體,然後選取下一步。
透過選取建立新連線,建立目的地的連線。 提供連線的詳細資料,然後選取下一步。
選取您的資料夾路徑並提供檔案名稱,然後選取下一步。
再次選取下一步以接受預設檔案格式、資料行分隔符號、資料列分隔符號和壓縮類型,可以選擇性地包含標頭。
完成您的設定。 然後,檢閱並選取儲存 + 執行以完成程序。
步驟 5:設計您的資料管線並儲存以執行和載入資料
若要在資料流程活動之後執行複製活動,請從資料流程活動上的成功拖曳至複製活動。 複製 作業只會在 數據流 作業成功之後執行。
選取儲存來儲存您的資料管線。 然後選取 [ 執行 ] 以執行您的資料管線並載入您的資料。
排程管線執行
完成開發及測試管線之後,您可以排程它自動執行。
在管線編輯器視窗的 [ 首頁 ] 索引標籤上,選取 [ 排程]。
視需要設定排程。 這裡的範例會排程管線每天在晚上 8:00 執行,直到年底為止。
相關內容
此範例說明如何建立及設定 Dataflow Gen2 來建立合併查詢,並將其儲存在 Azure SQL 資料庫中,然後將資料庫的資料複製到 Azure Blob 儲存體中的文字檔。 您已了解如何︰
- 建立資料流程。
- 使用資料流程轉換資料。
- 使用資料流程來建立資料管線。
- 排序管線中的步驟執行。
- 使用複製小幫手複製資料。
- 執行並排程您的資料管線。
接下來,請繼續進行以深入瞭解如何監視管線執行。