共用方式為


在 Azure 中選擇數據管線協調流程技術

大部分巨量數據解決方案都包含在工作流程中封裝的重複數據處理作業。 管線協調器是一種工具,可協助將這些工作流程自動化。 協調器可以排程工作、執行工作流程,以及協調工作之間的相依性。

您的數據管線協調流程有哪些選項?

在 Azure 中,下列服務和工具將符合管線協調流程、控制流程和數據移動的核心需求:

這些服務和工具可以彼此獨立使用,或一起使用來建立混合式解決方案。 例如,Azure Data Factory V2 中的 Integration Runtime (IR) 可以在受控 Azure 計算環境中原生執行 SSIS 套件。 雖然這些服務之間的功能有些重疊,但有一些主要差異。

關鍵選擇標準

若要縮小選擇範圍,請從回答下列問題開始:

  • 您需要巨量數據功能來移動和轉換您的資料嗎? 這通常表示數個GB到數TB的資料。 如果是,請將選項縮小到最適合巨量數據的選項。

  • 您是否需要可大規模運作的受控服務? 如果是,請選取其中一個不受本機處理能力限制的雲端式服務。

  • 您的部分數據來源是否位於內部部署? 如果是,請尋找可使用雲端和內部部署數據源或目的地的選項。

  • 您的源資料是否儲存在 HDFS 檔案系統上的 Blob 記憶體中? 如果是,請選擇支援Hive查詢的選項。

功能矩陣

下表摘要說明功能的主要差異。

一般功能

能力 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight 上的 Oozie
受管理的 是的 是的
雲端式 是的 否(當地) 是的
先決條件 Azure 訂用帳戶 SQL Server Azure 訂用帳戶、HDInsight 叢集
管理工具 Azure 入口網站、PowerShell、CLI、.NET SDK SSMS、PowerShell Bash Shell、Oozie REST API、Oozie Web UI
定價 按使用量付費 授權/支付功能費用 執行 HDInsight 叢集時不會有額外費用

管線功能

能力 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight 上的 Oozie
複製數據 是的 是的 是的
自訂轉換 是的 是的 是 (MapReduce、Pig 和 Hive 作業)
Azure Machine Learning 評分 是的 是 (含文稿)
HDInsight 隨選服務 是的
Azure Batch 是的
Pig、Hive、MapReduce 是的 是的
火花 是的
執行 SSIS 封裝 是的 是的
控制流 是的 是的 是的
存取內部部署數據 是的 是的

延展性功能

能力 Azure Data Factory SQL Server Integration Services (SSIS) HDInsight 上的 Oozie
擴大規模 是的
向外延展 是的 是(藉由將工作節點新增至叢集)
針對巨量數據優化 是的 是的

貢獻者

本文由 Microsoft 維護。 它最初是由下列參與者所撰寫。

主要作者:

後續步驟

  • 適用於新式數據倉儲的 DataOps