在 Azure 中選擇批處理技術
巨量數據解決方案通常由參與整體數據處理解決方案的離散批處理工作所組成。 您可以將批處理用於不需要立即存取深入解析的工作負載。 批處理可以補充實時處理需求。 您也可以使用批處理來平衡複雜度,並降低整體實作的成本。
批處理引擎的基本需求是相應放大計算來處理大量數據。 與實時處理不同,批處理有延遲,或數據擷取與計算結果之間的時間,以分鐘或小時為單位。
選擇批處理的技術
Microsoft提供數個可用來進行批處理的服務。
Microsoft Fabric
Microsoft Fabric 是適用於組織的全方位分析和數據平臺。 它是軟體即服務供應專案,可簡化您布建、管理及控管端對端分析解決方案的方式。 網狀架構會處理數據移動、處理、擷取、轉換和報告。 您用於批處理的網狀架構功能包括數據工程、數據倉儲、Lakehouses 和 Apache Spark 處理。 Fabric 中的 Azure Data Factory 也支援 Lakehouses。 若要簡化和加速開發,您可以啟用 AI 驅動的 Copilot。
語言: R、Python、Java、Scala 和 SQL
安全性: 受控虛擬網路和 OneLake 角色型存取控制 (RBAC)
主要記憶體: 具有快捷方式和鏡像選項的 OneLake
Spark: 預先凍結的入門集區和具有預先定義節點大小的自定義 Spark 集區
Azure Synapse Analytics
Azure Synapse Analytics 是一項企業分析服務,可將 SQL 和 Spark 技術結合在工作區的單一建構下。 Azure Synapse Analytics 可簡化安全性、治理和管理。 每個工作區都有可用來撰寫端對端工作流程的整合式數據管線。 您也可以為大規模分析布建專用 SQL 集區、可用來直接查詢 Lake 的無伺服器 SQL 端點,以及用於分散式數據處理的 Spark 運行時間。
語言: Python、Java、Scala 和 SQL
安全性: Azure Data Lake Storage 上的受控虛擬網路、RBAC 和訪問控制,以及記憶體訪問控制清單
主要記憶體: Data Lake Storage,也與其他來源整合
Spark: 具有預先定義節點大小的自定義 Spark 組態設定
Azure Databricks
Azure Databricks 是以 Spark 為基礎的分析平臺。 其功能豐富且進階的Spark功能建置在開放原始碼Spark之上。 Azure Databricks 是Microsoft服務,可與其餘的 Azure 服務整合。 它提供Spark叢集部署的額外設定。 而 Unity 目錄可協助簡化 Azure Databricks Spark 物件的治理。
語言: R、Python、Java、Scala 和Spark SQL。
安全性: 具有 Microsoft Entra 識別碼的用戶驗證。
主要記憶體:內建與 Azure Blob 儲存體、Data Lake Storage、Azure Synapse Analytics 和其他服務整合。 如需詳細資訊,請參閱資料來源。
其他優點包括:
用於共同作業和數據探索的 Web 型 筆記本 。
快速叢集啟動時間、自動終止和自動調整。
索引鍵選取準則
若要選擇用於批處理的技術,請考慮下列問題:
您要受控服務,還是想要管理自己的伺服器?
您要以宣告方式或命令方式撰寫批處理邏輯嗎?
您是否在高載中執行批處理? 如果是,請考慮提供自動終止叢集或具有每個批次作業定價模式的選項。
您需要查詢關係型數據存放區以及批處理,例如查詢參考數據嗎? 如果是,請考慮提供查詢外部關係存放區功能的選項。
功能對照表
下表摘要說明服務之間功能的主要差異。
一般功能
功能 | 網狀架構 | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
軟體即服務 | 是1 | 無 | No |
受控服務 | No | .是 | Yes |
關係型數據存放區 | Yes | .是 | Yes |
計價模式 | 容量單位 | SQL 集區或叢集時數 | Azure Databricks 單元 2 和叢集時數 |
[1] 指派的網狀架構容量。
[2] Azure Databricks 單位是每小時的處理功能。
其他功能
功能 | 網狀架構 | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
自動調整 | No | 無 | Yes |
向外延展數據粒度 | 每個網狀架構 SKU | 每個叢集或每個 SQL 集區 | 每個叢集 |
數據的記憶體內部快取 | No | .是 | Yes |
從外部關係型存放區查詢 | 是 | 無 | Yes |
驗證 | Microsoft Entra ID | SQL 或Microsoft項目標識碼 | Microsoft Entra ID |
稽核 | 是 | .是 | Yes |
資料列層級安全性 | 是 | 是 1 | Yes |
支援防火牆 | Yes | .是 | 是 |
動態資料遮罩 | 是 | .是 | Yes |
[1] 僅篩選述詞。 如需詳細資訊,請參閱 數據列層級安全性。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Zoiner Tejada | CEO 暨架構設計師
- Pratima Valavala |主要解決方案架構師
若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。