Azure Data Factory 的運作方式

已完成

在此,您將了解 Azure Data Factory 的元件和互相連接的系統,以及運作原理。 此知識應能協助您判斷如何充分利用 Azure Data Factory 以符合您組織的需求。

Azure Data Factory 是一組互相連接的系統,結合起來形成了端對端的資料分析平臺。 在此單元中,您將了解下列 Azure Data Factory 的功能:

  • 連線及收集
  • 轉換及擴充
  • 持續整合與傳遞 (CI/CD) 和發布
  • 監視

您也將了解 Azure Data Factory 的這些主要元件:

  • Pipelines
  • 活動
  • 資料集
  • 連結服務
  • 資料流程
  • 整合執行階段

Azure Data Factory 函式

Azure Data Factory 包含了數個函式,結合起來可為您的資料工程師提供完整的資料分析平台。

連線及收集

流程的第一個部分是從適當的資料來源收集必要的資料。 這些來源可以來自不同的位置,包括內部部署來源和雲端。 資料可能包含:

  • 結構化
  • 非結構化
  • 半結構化

此外,不同的資料可能會以不同的速度和間隔抵達。 藉由使用 Azure Data Factory,您可以使用複製活動,將資料從各種來源移至雲端中單一的集中式資料存放區。 在複製資料之後,您可以使用其他系統來轉換和分析資料。

複製活動會執行下列高階步驟:

  1. 從來源資料存放區讀取資料。

  2. 在資料上執行下列工作:

    • 序列化/還原序列化
    • 壓縮/解壓縮
    • 資料行對應

    注意

    可能還會有其他額外工作。

  3. 將資料寫入目的地資料存放區 (此動作被稱為「接收」)。

下圖會摘要說明此程序:

此圖描述上述程序。

轉換及擴充

將資料成功複製到中央雲端位置之後,您就可以使用 Azure Data Factory 對應資料流,視需要處理和轉換資料。 「資料流程」可讓您建立在 Spark 上執行的資料轉換圖形。 不過,您不需要瞭解 Spark 叢集或 Spark 程式設計。

提示

雖然並非必要,但您可能偏好以手動編寫轉換的程式碼。 在這種狀況下,Azure Data Factory 支援外部活動來執行您的轉換。

CI/CD 和發佈

CI/CD 的支援能讓您在發佈之前,以累加方式開發和傳遞擷取、轉換、載入 (ETL) 流程。 Azure Data Factory 使用下列方式提供資料管線的 CI/CD:

  • Azure DevOps
  • GitHub

注意

持續整合表示其會盡快自動測試您對程式碼基底所做的每項變更。 在測試之後便會進行持續傳遞,並將變更推送至暫存或生產系統。

在 Azure Data Factory 調整完未經處理資料之後,您可以將資料載入企業使用者可從其商業智慧工具存取的任何分析引擎,包括:

  • Azure Synapse Analytics
  • Azure SQL Database
  • Azure Cosmos DB

監視器

在您成功建立並部署資料整合管線之後,請務必監視已排程的活動和管線。 監視可讓您追蹤成功和失敗率。 Azure Data Factory 使用下列其中一種方法來支援對管線的監視:

  • Azure 監視器
  • API
  • PowerShell
  • Azure 監視器記錄
  • Azure 入口網站中的健康情況面板

Azure Data Factory 元件

Azure Data Factory 由下表所述的元件組成:

元件 描述
管線 執行特定工作單位活動的邏輯群組。 這些活動會一起執行一項工作。 使用管線的優點是您可以更輕鬆地將活動以集合的方式管理,而不是分為個別的項目。
活動 管線中的單一處理步驟。 Azure Data Factory 支援三種類型的活動︰資料移動、資料轉換,以及控制活動。
資料集 代表資料存放區內的資料結構。 資料集指出 (或參考) 您想要作為輸出或輸入用於活動中的資料。
連結服務 定義 Azure Data Factory 連接到外部資源 (例如資料來源) 所需的必要連接資訊。 Azure Data Factory 將連結服務用於兩個用途:代表資料存放區計算資源
資料流程 讓您的資料工程師不需要撰寫程式碼即可開發資料轉換邏輯。 資料流程會在使用擴增 Apache Spark 叢集的 Azure Data Factory 管線內以活動的形式執行。
整合執行階段 Azure Data Factory 使用計算基礎結構,跨越不同的網路環境提供下列資料整合功能:資料流程、資料移動、活動分派和 SQL Server Integration Services (SSIS) 套件執行。 在 Azure Data Factory 中,整合執行階段是活動與連結服務之間的橋樑。

如下圖所示,這些元件會一起運作,以提供完整的端對端平臺供資料工程師使用。 藉由使用 Data Factory,您可以:

  • 依需求設定觸發程序,並根據您的需求排程資料處理。
  • 將管線與觸發程序建立關聯,或視需要手動啟動它。
  • 透過整合執行階段連線至連結服務 (例如內部部署應用程式和資料) 或 Azure 服務。
  • 在 Azure Data Factory 使用者體驗中以原生方式監視您所有的管線執行,或使用 Azure 監視器來監視。

此圖描述上表所述元件的互動。