在 Azure 中選擇數據管線協調流程技術
大部分巨量數據解決方案都包含在工作流程中封裝的重複數據處理作業。 管線協調器是一種工具,可協助將這些工作流程自動化。 協調器可以排程工作、執行工作流程,以及協調工作之間的相依性。
您的數據管線協調流程有哪些選項?
在 Azure 中,下列服務和工具將符合管線協調流程、控制流程和數據移動的核心需求:
這些服務和工具可以彼此獨立使用,或一起使用來建立混合式解決方案。 例如,Azure Data Factory V2 中的 Integration Runtime (IR) 可以在受控 Azure 計算環境中原生執行 SSIS 套件。 雖然這些服務之間的功能有些重疊,但有一些主要差異。
索引鍵選取準則
若要縮小選擇範圍,請從回答下列問題開始:
您需要巨量數據功能來移動和轉換您的資料嗎? 這通常表示多 GB 到數 TB 的數據。 如果是,請將選項縮小到最適合巨量數據的選項。
您是否需要可大規模運作的受控服務? 如果是,請選取其中一個不受本機處理能力限制的雲端式服務。
您的部分數據來源是否位於內部部署? 如果是,請尋找可使用雲端和內部部署數據源或目的地的選項。
您的源資料是否儲存在 HDFS 檔案系統上的 Blob 記憶體中? 如果是,請選擇支援Hive查詢的選項。
功能矩陣
下表摘要說明功能的主要差異。
一般功能
功能 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight 上的 Oozie |
---|---|---|---|
受控 | 是 | 無 | Yes |
雲端式 | Yes | 否(當地) | Yes |
必要條件 | Azure 訂用帳戶 | SQL Server | Azure 訂用帳戶、HDInsight 叢集 |
管理工具 | Azure 入口網站、PowerShell、CLI、.NET SDK | SSMS、PowerShell | Bash 殼層、Oozie REST API、Oozie Web UI |
定價 | 按使用量付費 | 授權/支付功能費用 | 執行 HDInsight 叢集時不需額外費用 |
管線功能
功能 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight 上的 Oozie |
---|---|---|---|
複製資料 | Yes | .是 | Yes |
自訂轉換 | Yes | Yes | 是 (MapReduce、Pig 和 Hive 作業) |
Azure 機器學習 評分 | Yes | 是 (含文稿) | No |
HDInsight 隨選 | 是 | 無 | No |
Azure Batch | 是 | 無 | No |
Pig、Hive、MapReduce | 是 | 無 | Yes |
Spark | 是 | 無 | No |
執行 SSIS 套件 | Yes | .是 | No |
控制流程 | Yes | .是 | Yes |
存取內部部署資料 | Yes | .是 | No |
延展性功能
功能 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight 上的 Oozie |
---|---|---|---|
相應增加 | 是 | 無 | No |
橫向擴增 | 是 | No | 是 (藉由將背景工作節點新增至叢集) |
針對巨量數據優化 | 是 | 無 | Yes |
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主體作者:
- Zoiner Tejada |CEO 和架構師
下一步
- Azure Data Factory 和 Azure Synapse Analytics 中的管線及活動
- 在 Azure Data Factory 中布建 Azure-SSIS 整合運行時間
- HDInsight 上的 Oozie