Synapse 實作成功方法:評估資料整合設計
注意
本文是根據設計成功實作 Azure Synapse系列文章的一部分。 如需系列概觀,請參閱根據設計成功實作 Azure Synapse。
Azure Synapse Analytics 包含與 Azure Data Factory (ADF) 相同的資料整合引擎和體驗,可讓您建立豐富的大規模 ETL 管線,而不需離開 Azure Synapse Analytics。
本文說明如何評估專案的資料整合元件設計。 具體來說,這可協助您判斷 Azure Synapse 管道是否最適合您的資料整合需求。 在解決方案開發之前評估對設計所投入的時間,有助於消除可能會影響專案時程表或成本的非預期設計變更。
調整間距分析
您應該對資料整合策略執行完整的調整間距分析。 如果您選擇 Azure Synapse 管道作為資料整合工具,請檢閱下列幾點,以確保其最適合您的資料整合需求和協調流程。 即使您選擇不同的資料整合工具,仍應該檢閱下列幾點,以驗證已考慮的所有重要設計點,且您選擇的工具將支援您的解決方案需求。 這項資訊應該已在您先前在此方法中執行的評量期間擷取。
- 檢閱您的資料來源和目的地 (目標):
- 檢閱資料整合的觸發點和頻率:
- Azure Synapse 管道支援排程、輪轉視窗和儲存體事件觸發程序。
- 根據您的需求,驗證最小週期間隔和支援的儲存體事件。
- 檢閱資料整合的必要模式:
- 排程、定期和觸發的批次處理可以在 Azure Synapse 管道中有效地設計。
- 若要實作異動資料擷取 (CDC) 功能,請使用協力廠商產品或建立自訂解決方案。
- 若要支援即時串流,請使用 Azure 事件中樞、Apache Kafka 中的 Azure 事件中樞或 Azure IoT 中樞。
- 若要執行 Microsoft SQL Server Integration Services (SSIS) 套件,您可以將 SSIS 工作負載隨即轉移至雲端。
- 檢閱計算設計:
- 檢閱環境的安全性需求、網路和防火牆設定,並將其與安全性、網路和防火牆組態設計進行比較:
- 檢閱資料來源的保護及網路連線方式。
- 檢閱目標資料存放區的保護及網路連線方式。 Azure Synapse 管道具有不同的資料存取策略,可提供透過私人端點或虛擬網路連線資料存放區的安全方式。
- 每當適用時,請使用 Azure Key Vault 來儲存認證。
- 使用 ADF 進行客戶管理的金鑰 (CMK) 認證加密,並將其儲存在自我裝載 IR 中。
- 檢閱進行中監視所有資料整合元件的設計。
架構考量
當您檢閱資料整合設計時,請考慮下列建議和指導方針,以確保解決方案的資料整合元件可提供持續的傑出營運方式、高效率的效能、可靠性以及安全性。
卓越營運
若要獲得傑出的營運方式,請評估下列幾點。
- 環境:規劃環境時,請依開發/測試來區分環境、使用者驗收測試 (UAT) 和生產環境。 使用資料夾組織選項,依商務/ETL 作業組織管道和資料集,以支援更佳的可維護性。 使用註釋標記管道,以便您可以輕鬆地進行監視。 使用參數建立可重複使用的管道,以及反覆項目和條件式活動。
- 監視和警示:Synapse 工作區包含監視中樞,其中包含每個管道執行的豐富監視資訊。 其也會與 Log Analytics 整合,以進行進一步的記錄分析和警示。 您應該實作這些功能來提供主動式錯誤通知。 此外,使用 [失敗時] 路徑來實作自訂的錯誤處理。
- 自動化部署和測試:Azure Synapse 管道內建於 Synapse 工作區中,因此您可以利用工作區自動化和部署。 使用 ARM 範本,將建立 Synapse 工作區時的手動活動降到最低。 此外,整合 Synapse 工作區與 Azure DevOps,以建置程式碼版本設定並自動化發行。
效能效益
如要獲得高效率的效能,請評估下列幾點。
- 使用複製活動時,請遵循效能指導和最佳化功能。
- 選擇用於資料傳輸的最佳化連接器,而非一般連接器。 例如,在將資料從 Azure Data Lake Storage Gen2 (ALDS Gen2) 移至專用 SQL 集區時,使用 PolyBase 而非大量插入。
- 建立新的 Azure IR 時,將區域位置設定為自動解析,或選取與資料存放區相同的區域。
- 針對自我裝載 IR,根據整合需求選擇 Azure 虛擬機器 (VM) 大小。
- 選擇穩定的網路連線,例如 Azure ExpressRoute,以取得快速且一致的頻寬。
可靠性
當您使用 Azure IR 執行管道時,其本質上屬於無伺服器,因此可提供現成的復原功能。 客戶可以管理的項目相當有限。 不過,當管道在自我裝載 IR 中執行時,我們建議您在 Azure VM 中使用高可用性設定來執行管道。 此設定可確保即使 VM 離線,整合管道也不會中斷。 此外,我們建議您使用 Azure ExpressRoute 進行內部部署與 Azure 之間快速且可靠的網路連線。
安全性
受保護的資料平面是每個組織的主要需求之一。 您應該完整規劃整個平台的安全性,而非個別元件。 以下是適用於 Azure Synapse 管道解決方案的一些安全性指導方針。
- 使用 Azure Synapse私人端點來保護資料移至雲端的安全。
- 使用 Microsoft Entra 受控識別進行驗證。
- 使用 Azure 角色型存取控制 (RBAC) 和 Synapse RBAC 來進行授權。
- 將認證、祕密和金鑰儲存在 Azure Key Vault,而非儲存在管道中。 如需詳細資訊,請參閱在管道活動中使用 Azure Key Vault 祕密。
- 透過 Azure ExpressRoute 或私人端點上的 VPN 連線至內部部署資源。
- 當參數儲存祕密或密碼時,啟用管道活動中的 [安全輸出] 和 [安全輸入] 選項。
下一步
在下一篇文章中的透過設計獲得 Azure Synapse 成功系列,瞭解如何評估您的專用 SQL 集區設計,以找出問題並驗證其是否符合指導方針和需求。