共用方式為


資料湖屋的效能效益

本文涵蓋 效能效率 支柱的架構原則,指的是系統適應負載變更的能力。

Databricks 的效能效率資料湖屋架構圖表。

效能效率的原則

  1. 使用無伺服器架構

    無伺服器架構不需要客戶在雲端中操作和維護運算基礎結構。 這可消除管理雲端基礎結構的作業額外負荷,並降低交易成本,因為受控服務會在雲端規模上運作。 它們也會提供立即可用性、開箱即用的安全性,而且只需最少的設定或管理。

  2. 設計工作負載以提升效能

    對於重複的工作負載,例如數據工程管線,效能不應該是事後考慮。 資料必須是:

    • 有效率地從物件記憶體讀取。
    • 有效率地轉換。
    • 有效率地發布以供使用。

    此外,大部分管線或取用模式都會使用系統鏈結。 若要達到最佳效能,必須考慮並選取整個鏈結以獲得最佳效能。

  3. 在開發 範圍內執行效能測試

    每個開發工作負載都必須經過持續效能測試。 測試可確保程式代碼基底的任何變更都不會對工作負載的效能造成負面影響。 建立執行測試的一般排程。 將測試作為排程事件的一部分來執行,或者作為持續整合建置管線的一部分。

    建立效能基準,並判斷工作負載和支援基礎結構的目前效率。 根據基準測量效能可以提供改進策略,並判斷應用程式是否符合商務目標。

    找出可能影響效能的瓶頸。 這些瓶頸可能是因為程式代碼錯誤或服務設定錯誤所造成。 一般而言,當負載增加時,瓶頸會變得更糟。

  4. 監控效能

    請確定資源和服務仍可存取,且效能符合使用者的期望或工作負載需求。 監視可協助您找出瓶頸或資源不足、優化設定,以及偵測管線/工作負載錯誤。

下一步:效能效率的最佳做法

請參閱 效能效率的最佳做法