共用方式為


規劃從 Azure Data Factory 移轉

Microsoft Fabric 是Microsoft數據分析 SaaS 產品,可將所有Microsoft市場領先的分析產品整合成單一用戶體驗。 Fabric Data Factory 提供工作流程編排、數據移動、數據複製和數據轉換,具備與 Azure Data Factory (ADF)中相似的功能。 如果您有想要現代化至 Fabric Data Factory 的現有 ADF 投資,本文件有助於您了解移轉考慮、策略和方法。

從 Azure PaaS ETL/DI 服務 ADF 移轉 & Synapse 管線和數據流可提供數個重要優點:

  • 新的整合管線功能,包括電子郵件和 Teams 活動,可讓您在管線執行期間輕鬆路由傳送訊息。
  • 內建的持續整合和傳遞 (CI/CD) 功能 (部署管線) 不需要外部與 Git 存放庫整合。
  • 工作區與您的 OneLake 數據湖整合,使您能夠以單一視圖輕鬆管理分析。
  • 使用完整整合的流程活動,在 Fabric 中重新整理語意資料模型變得很容易。

Microsoft Fabric 是自助式和 IT 管理企業數據的整合式平臺。 隨著數據量和複雜性的指數成長,Fabric 平台的客戶需要能夠擴展、安全、易於管理,且可以讓組織內所有使用者存取的企業解決方案。

近年來,Microsoft投入大量精力,為進階提供可調整的雲端功能。 為此,Fabric 中的 Data Factory 能夠立即強化一個數據整合開發人員和解決方案的大型生態系統,這個生態系統經過數十年發展,能夠應用完整的功能集,其能力遠超過前幾代所提供的功能。

當然,客戶會詢問是否有機會藉由在 Fabric 中裝載其數據整合解決方案來合併。 常見問題包括:

  • 我們依賴的所有功能是否在網狀架構管線中運作?
  • 哪些功能僅在 Fabric 管線中提供?
  • 我們如何將現有的管線移轉至網狀架構管線?
  • 企業數據擷取Microsoft藍圖為何?

平台差異

當您移轉整個 ADF 實例時,ADF 與 Fabric 中的 Data Factory 之間有許多重要的差異需要考慮。當您移轉至 Fabric 時,這些差異會變得非常重要。 我們會探索本節中的其中幾個重要差異。

如需更深入瞭解 Azure Data Factory 與 Fabric Data Factory 之間功能差異的功能對應,請參閱 比較網狀架構中的 Data Factory 和 Azure Data Factory

整合執行環境

在ADF中,整合運行時間 (IR) 是組態物件,代表ADF用來完成數據處理的計算。 這些組態屬性包括適用於雲端計算和數據流 Spark 計算大小的 Azure 區域。 其他 IR 類型包括用於內部部署資料連接的自我承載 IR(SHIR)、用於運行 SQL Server Integration Services 套件的 SSIS IR,以及啟用了 Vnet 的雲端 IR。

顯示 Azure Data Factory 中 [整合運行時間] 索引標籤的螢幕快照。

Microsoft Fabric 是軟體即服務 (SaaS) 產品,而 ADF 則是平臺即服務 (PaaS) 產品。 這項區別在整合運行時間方面的意義在於,您不需要將任何項目設定為在 Fabric 中使用管線或數據流,因為預設值是在 Fabric 容量所在的區域中使用雲端式計算。 SSIS IR 不存在於網狀架構中,而且對於內部部署數據連線,您可以使用稱為 內部部署數據閘道 (OPDG) 的網狀架構特定元件。 針對虛擬網路型連線到受保護的網路,您可以使用 Fabric 中的虛擬網路數據閘道。

從 ADF 移轉至 Fabric 時,您無需移轉公共網路的 Azure(雲端)IR。 您需要將 SHIR 重新建立為 OPDG,並將啟用了虛擬網路的 Azure IR 重新建立為 虛擬網路資料閘道

螢幕快照,其中顯示 [網狀架構管理員] 頁面上的 [管理連線和網關] 選項。

管道

管線是ADF的基本元件,用於資料移動、資料轉換和流程協調的主要工作流程和協調。 Fabric Data Factory 中的管線幾乎與 ADF 相同,但具有符合以 Power BI 為基礎的 SaaS 模型的額外元件。 這種相似性包括電子郵件、Teams 和語意模型更新的內建活動。

Fabric Data Factory 中管線的 JSON 定義與 ADF 稍有不同,因為兩個產品之間的應用程式模型差異。 由於這項差異,因此無法複製/貼上管線 JSON、匯入/匯出管線,或指向ADF Git存放庫。

將ADF管線重建為網狀架構管線時,基本上會使用相同的工作流程模型和ADF中使用的技能。 主要考慮與鏈接服務與數據集有關,這些概念在 ADF 中不存在於 Fabric 中。

連結服務

在ADF中,連結服務會定義連線到資料存放區以進行數據移動、資料轉換和數據處理活動所需的連線屬性。 在 Fabric 中,您必須將這些定義重新建立為複製和數據流等活動屬性的連線。

資料集

數據集會定義 ADF 中數據的形狀、位置和內容,但在 Fabric 中不作為實體存在。 若要在 Fabric Data Factory 管線中定義資料類型、數據行、資料夾、資料表等資料屬性,您可以在管線活動和先前在連結服務區段中參考的 Connection 物件內,內嵌定義這些特性。

數據流

在 Data Factory for Fabric 中,數據流一詞 是指無程式代碼的數據轉換活動,而在 ADF 中,相同的功能稱為 數據流。 Fabric Data Factory 數據流具有建立於 Power Query 上的使用者介面,該介面用於 ADF 的 Power Query 活動。 用來在 Fabric 中執行數據流的計算是原生執行引擎,可使用新的 Fabric 數據倉儲計算引擎相應放大以進行大規模數據轉換。

在ADF中,數據流建置在Synapse Spark基礎結構上,並使用建構使用者介面來定義,該介面會使用稱為 數據流腳本的基礎網域特定語言 (DSL)。 此定義語言與 Fabric 中以 Power Query 為基礎的數據流大相徑庭,這些數據流使用稱為 M 的定義語言來定義其行為。 由於使用者介面、語言和執行引擎的這些差異,Fabric 數據流 和 ADF 數據流 不相容,因此您需要在將解決方案升級至 Fabric 時重新建立 ADF 數據流, 為 Fabric 數據流

觸發器

觸發器通知 ADF,根據時鐘時間表、滾動窗口時間片、檔案型事件或自訂事件來執行資料管線。 雖然基礎實作不同,但這些功能在 Fabric 中很類似。

在 Fabric 中,觸發器 僅以管道概念的形式存在。 管線觸發程式在 Fabric 中使用的較大架構稱為 Data Activator,這是 Fabric 即時智能功能中的事件和警示子系統。

顯示 Azure Data Factory 中 [觸發程式] 頁面的螢幕快照。

網狀架構數據啟動器具有 警示,可用來建立檔案事件和自定義事件觸發程式。 雖然排程觸發程式是 Fabric 中的個別實體,稱為 排程。 這些排程位於 Fabric 中的平台層級,而不是管線特有的。 在 Fabric 中,它們也不被稱為 觸發程式

若要將觸發程式從 ADF 移轉至 Fabric,請考慮將排程觸發程式重建為 Fabric 管線屬性的排程。 對於所有其他觸發程式類型,請使用 Fabric 管線內的 [觸發程式] 按鈕,或在 Fabric 中原生使用數據啟動器。

螢幕快照,其中顯示 Fabric 管線編輯器中的 Data Factory 的 [新增觸發程式] 按鈕。

除錯

在 Fabric 中偵錯管線比 ADF 簡單。 這種簡單性是因為 Fabric Data Factory 管線沒有個別的概念,偵錯模式 您在 ADF 管線和數據流中找到。 相反地,當您建置管線時,您一律處於互動式模式。 若要測試和偵錯管線,當您在開發週期中準備就緒時,只需要從 [管線編輯器] 工具欄選取 [播放] 按鈕。 除非以互動方式偵錯 逐步模式,否則 Fabric 中的管線不會包含 偵錯。 相反地,在 Fabric 中,您會使用活動狀態,並只設定您想要測試為作用中的活動,同時將所有其他活動設定為非使用中,以達到相同的測試和偵錯模式。 請參閱下列影片,逐步解說如何在 Fabric 中達成此偵錯體驗。

異動數據擷取

ADF 中的更動資料擷取(CDC)是一項預覽功能,這使得透過應用資料存放庫的來源端 CDC 功能,以增量方式輕鬆快速地移動資料。 若要將 CDC 成品移轉至 Fabric Data Factory,您需將這些成品重新建立為 複製作業 項目於您的 Fabric 工作區中。 這項功能提供類似於累加式數據移動的功能,並具備一個易於使用的界面,而不需要管線,就像在 ADF CDC 中一樣。 如需詳細資訊,請參閱 Fabric 中 Data Factory 的 複製作業

雖然在 ADF 中無法使用,但 Synapse 管線用戶經常會利用 Azure Synapse Link,以開箱即用的方法將數據從 SQL 資料庫複寫到其資料湖。 在 Fabric 中,您會在工作區中重新建立 Azure Synapse Link 工件作為鏡像項目。 如需更多資訊,請參閱 Fabric 資料庫鏡像

SQL Server Integration Services (SSIS)

SSIS 是 Microsoft 隨 SQL Server 提供的內部部署數據整合和 ETL 工具。 在ADF中,您可以使用ADF SSIS IR將SSIS套件隨即轉移至雲端。 在 Fabric 中,我們沒有 IR 的概念,因此這項功能目前是不可能的。 我們正在致力於使 SSIS 套件能夠在 Fabric 中直接執行,希望很快能在產品中實現這一功能。 同時,使用 Fabric Data Factory 在雲端中執行 SSIS 套件的最佳方式是在 ADF Factory 中啟動 SSIS IR,然後叫用 ADF 管線來呼叫 SSIS 套件。 您可以使用下一節所述的呼叫管線活動,從 Fabric 管線遠端呼叫 ADF 管線。

調用管線活動

ADF 管線中使用的常見活動是 執行管線活動,可讓您在處理站中呼叫另一個管線。 在 Fabric 中,我們將此活動強化為 叫用管線活動。 請參閱 呼叫管線活動 文件。

在您有許多使用 ADF 特定功能(如映射數據流或 SSIS)的 ADF 管線的遷移案例中,此活動非常有用。 您可以在 Azure Data Factory (ADF) 或甚至 Synapse 管線中維護這些管線 as-is,然後透過「調用管線活動」指向遠端資料工廠的管線,直接在新 Fabric Data Factory 管線中內聯呼叫該管線。

範例移轉案例

下列案例是從ADF移轉至網狀架構Data Factory時可能會遇到的常見移轉案例。

案例 #1:ADF 管線和數據流

處理站移轉的主要使用案例是以將 ETL 環境從 ADF Factory PaaS 模型現代化到新的網狀架構 SaaS 模型為基礎。 要移轉的主要處理站專案是管線和數據流。 您需要規劃移轉這兩個最上層專案以外的幾個基本 Factory 元素:鏈接服務、整合運行時間、數據集和觸發程式。

  • 鏈接的服務必須在 Fabric 中重新建立為管線活動中的連線。
  • 數據集不存在於 Factory 中。 數據集的屬性會以管線活動內的屬性來表示,例如複製或查閱,而 Connections 則包含其他數據集屬性。
  • 整合運行時間不存在於 Fabric 中。 不過,您可以使用 Fabric 中的內部部署資料閘道 (OPDG) 和 Azure 虛擬網路 IR,重新建立自我裝載的 IR 作為 Fabric 中的受控虛擬網路閘道。
  • 這些 ADF 管線活動未包含在網狀架構 Data Factory 中:
    • Data Lake Analytics (U-SQL) - 這項功能是已被取代的 Azure 服務。
    • 驗證活動 - 在 ADF 中,驗證活動是一個輔助活動,您可以使用 Get Metadata 活動、管線迴圈和 If 活動,在 Fabric 管線中輕鬆重建。
    • Power Query - 在 Fabric 中,所有數據流都是使用 Power Query UI 所建置,因此您只要從 ADF Power Query 活動複製並貼上 M 程式代碼,並將其建置為 Fabric 中的數據流。
  • 如果您使用 Fabric Data Factory 中找不到的任何 ADF 管線功能,請使用 Fabric 中的叫用管線活動來呼叫 ADF 中的現有管線。
  • 下列 ADF 管線活動會合併成單一用途活動:
    • Azure Databricks 活動(Notebook、Jar、Python)
    • Azure HDInsight (Hive、Pig、MapReduce、Spark、串流)

下圖顯示 ADF 數據集組態頁面,其中包含其檔案路徑和壓縮設定:

顯示ADF數據集設定頁面的螢幕快照。

下圖顯示 Fabric 中 Data Factory 的複製活動組態,其中壓縮和檔案路徑會內嵌在活動中:

顯示 Fabric 複製活動壓縮組態中 Data Factory 的螢幕快照。

案例 #2:ADF 結合 CDC、SSIS 及 Airflow

ADF 中的 CDC & Airflow 是預覽功能,而 ADF 中的 SSIS 是多年來一般可用的功能。 每項功能都提供不同的數據整合需求,但在從ADF移轉至 Fabric 時需要特別注意。 異動數據擷取(CDC)是高階的 ADF 概念,但在 Fabric 中,您會看到這項功能作為 複製工作

Airflow 是 ADF 雲端管理的 Apache Airflow 功能,也可以在 Fabric Data Factory 中使用。 您應該能夠使用相同的 Airflow 原始碼庫,或是採用您的 DAG,並將程式碼複製/貼到 Fabric Airflow 供應專案,幾乎不需要變更。

案例 #3:已啟用 Git 的 Data Factory 移轉至 Fabric

ADF 或 Synapse 工廠和工作區與 ADO 或 GitHub 中您自己的外部 Git 提供者連接是很常見的做法,儘管這不是必需的。 在此案例中,您必須將處理站和工作區專案移轉至 Fabric 工作區,然後在您的 Fabric 工作區上設定 Git 整合。

Fabric 提供兩種主要方式,可在工作區層級啟用 CI/CD:Git 整合,您可以在 ADO 中自備 Git 存放庫,並從網狀架構和內建部署管線進行連線,讓您不需要攜帶自己的 Git,即可將程式代碼升階至較高環境。

在這兩種情況下,來自ADF的現有 Git 存放庫不適用於 Fabric。 相反地,您需要指定新的存放庫,或者在 Fabric 中開啟新的 部署管線,並在 Fabric 中重建您的管線產出物。

將現有的ADF實例直接掛接至網狀架構工作區

先前,我們談到使用 Fabric Data Factory 叫用管線活動作為維護現有 ADF 管線投資的機制,並從 Fabric 內嵌呼叫它們。 在 Fabric 中,您可以將這個概念向前邁進一步,將整個工廠掛載在您的 Fabric 工作區內,作為原生的 Fabric 項目。

如需了解更多掛載使用情境的詳細資訊,請參閱 內容合作與傳遞情境

在網狀架構工作區內掛接 Azure Data Factory 會帶來許多優點。 如果您不熟悉 Fabric,而且想要將工廠並排保留在相同的玻璃窗格中,您可以將它們掛接到 Fabric 中,以便您可以在 Fabric 內管理這兩者。 您現在可以從掛接的處理站取得完整的 ADF UI,您可以從網狀架構工作區中完全監視、管理及編輯 ADF 處理站專案。 這項功能可讓您更輕鬆地開始將這些專案移轉至 Fabric 作為原生網狀架構成品。 這項功能主要是為了提升易用性,讓您能輕鬆地在Fabric工作區中查看您的ADF工廠。 不過,管線、活動、整合運行時間等的實際執行仍會在 Azure 資源內發生。

從 ADF 移轉至 Fabric 中的 Data Factory 的遷移考量