在 Azure 中選擇數據管線協調流程技術
大部分巨量數據解決方案都包含在工作流程中封裝的重複數據處理作業。 管線協調器是一種工具,可協助將這些工作流程自動化。 協調器可以排程工作、執行工作流程,以及協調工作之間的相依性。
您的數據管線協調流程有哪些選項?
在 Azure 中,下列服務和工具將符合管線協調流程、控制流程和數據移動的核心需求:
這些服務和工具可以彼此獨立使用,或一起使用來建立混合式解決方案。 例如,Azure Data Factory V2 中的 Integration Runtime (IR) 可以在受控 Azure 計算環境中原生執行 SSIS 套件。 雖然這些服務之間的功能有些重疊,但有一些主要差異。
關鍵選擇標準
若要縮小選擇範圍,請從回答下列問題開始:
您需要巨量數據功能來移動和轉換您的資料嗎? 這通常表示數個GB到數TB的資料。 如果是,請將選項縮小到最適合巨量數據的選項。
您是否需要可大規模運作的受控服務? 如果是,請選取其中一個不受本機處理能力限制的雲端式服務。
您的部分數據來源是否位於內部部署? 如果是,請尋找可使用雲端和內部部署數據源或目的地的選項。
您的源資料是否儲存在 HDFS 檔案系統上的 Blob 記憶體中? 如果是,請選擇支援Hive查詢的選項。
功能矩陣
下表摘要說明功能的主要差異。
一般功能
能力 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight 上的 Oozie |
---|---|---|---|
受管理的 | 是的 | 不 | 是的 |
雲端式 | 是的 | 否(當地) | 是的 |
先決條件 | Azure 訂用帳戶 | SQL Server | Azure 訂用帳戶、HDInsight 叢集 |
管理工具 | Azure 入口網站、PowerShell、CLI、.NET SDK | SSMS、PowerShell | Bash Shell、Oozie REST API、Oozie Web UI |
定價 | 按使用量付費 | 授權/支付功能費用 | 執行 HDInsight 叢集時不會有額外費用 |
管線功能
能力 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight 上的 Oozie |
---|---|---|---|
複製數據 | 是的 | 是的 | 是的 |
自訂轉換 | 是的 | 是的 | 是 (MapReduce、Pig 和 Hive 作業) |
Azure Machine Learning 評分 | 是的 | 是 (含文稿) | 不 |
HDInsight 隨選服務 | 是的 | 不 | 不 |
Azure Batch | 是的 | 不 | 不 |
Pig、Hive、MapReduce | 是的 | 不 | 是的 |
火花 | 是的 | 不 | 不 |
執行 SSIS 封裝 | 是的 | 是的 | 不 |
控制流 | 是的 | 是的 | 是的 |
存取內部部署數據 | 是的 | 是的 | 不 |
延展性功能
能力 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight 上的 Oozie |
---|---|---|---|
擴大規模 | 是的 | 不 | 不 |
向外延展 | 是的 | 不 | 是(藉由將工作節點新增至叢集) |
針對巨量數據優化 | 是的 | 不 | 是的 |
貢獻者
本文由 Microsoft 維護。 它最初是由下列參與者所撰寫。
主要作者:
- Zoiner Tejada |CEO 和架構師
後續步驟
- Azure Data Factory 和 Azure Synapse Analytics 中的管線和活動
- 在 Azure Data Factory 中布建 Azure-SSIS 整合執行時間
- HDInsight 上的 Oozie
相關資源
- 適用於新式數據倉儲的 DataOps