瞭解 Azure Data Factory 元件
Azure 訂閱可能會有一或多個 Azure Data Factory 執行個體。 Azure Data Factory 是由四個主要元件所組成。 這些元件組成了一個平台,您可以在其上進行移動和轉換資料的步驟,撰寫資料驅動的工作流程。
Data Factory 支援各種不同的資料來源,您可以透過建立稱為連結服務的物件,連接這些資料來源,讓您能夠從資料來源內嵌資料,以將轉換及 (或) 分析的資料準備就緒。 此外,已連結的服務也可視需要引發計算服務。 例如,您可能需要啟動隨選 HDInsight 叢集,僅處理透過 Hive 查詢的資料。 因此,您可利用已連結的服務,定義內嵌及準備資料所需的資料來源或計算資源。
在定義了已連結服務的情況下,Azure Data Factory 會知道其應該透過建立資料集物件所使用的資料集。 資料集代表資料存放區中的資料結構,並提供連結服務物參考。 稱為「活動」的 ADF 物件也可使用資料集。
活動通常包含轉換邏輯或 Azure Data Factory 工作的分析命令。 活動包括了複製活動,可用於從各種資料來源內嵌資料。 也可以包含對應資料流,來執行無程式碼資料轉換。 其也可以包含執行預存程序、Hive 查詢或 Pig 指令碼,以轉換資料。 您可以將資料推送至 Machine Learning 模型,以執行分析。 發生多項活動並非不常見,其可能包括使用 SQL 預存程序轉換資料,然後使用 Databricks 執行分析。 在此情況下,可使用邏輯方式將多個活動合為一組,搭配使用稱為管線的物件,也可排程執行這些活動,或是定義可判斷何時需要開始執行管線的觸發程序。 不同類型的事件有不同類型的觸發程序。
控制流程是管線活動的協調流程,其中包括將活動循序鏈結、分支、在管線層級定義參數,以及在隨選或從觸發程序叫用管線時傳遞引數。 這也包括自訂狀態傳遞與迴圈容器,以及 For-each 迭代器。
參數是唯讀設定的索引鍵/值組。 參數是在管線中定義。 已定義參數的引數會在執行時從執行內容傳遞,而執行內容由觸發程序或手動執行的管線所建立。 管線中的活動會取用參數值。
Azure Data Factory 有一個整合執行階段,可讓其在活動與連結服務物件之間進行橋接。 它由已連結服務參考,並提供可在其中執行活動或從中分派活動的計算環境。 如此一來,就可以在最接近的區域中執行活動。 有三種類型的 Integration Runtime,包括 Azure、自我裝載及 Azure-SSIS。
當所有工作都完成之後,您就可以使用 Data Factory 將最終資料集發佈至另一個連結服務,以供 Power BI 或 Machine Learning 等技術取用。