共用方式為


Data Lakehouse 的互操作性和可用性

本文涵蓋 互操作性和可用性的架構原則, 支柱,指的是 lakehouse 與使用者和其他系統的互動。 Lakehouse 的基本概念之一是為所有使用 lakehouse 的角色提供絕佳的用戶體驗,並且能夠與外部系統的廣泛生態系統互動。

  • 互操作性 是系統能夠與其他系統搭配使用及整合。 這表示不同元件與產品之間的互動,可能是來自多個廠商,以及相同產品的過去和未來版本之間的互動。
  • 可用性 是衡量系統如何讓使用者安全地、有效且有效率地執行工作。

Databricks 的互操作性和可用性湖倉架構圖表。

遵循此要素的原則有助於:

  • 達成一致且協作的用戶體驗。
  • 跨雲端運用協同效應。
  • 簡化與湖屋的整合。
  • 降低訓練和啟用成本。

最終會更快實現價值。

互操作性和可用性的原則

  1. 定義整合 的標準

    整合具有不同的層面,而且可以透過許多不同的方式來完成。 若要避免大量擴散工具和方法,必須定義最佳做法,並提供支援良好且慣用的工具和連接器清單。

    其中一個主要架構原則是模組化和鬆散結合,而不是緊密整合。 這可減少元件和工作負載之間的相依性、有助於消除副作用,並使能不同時間規模的獨立開發。 使用數據集及其架構做為合約。 將數據整頓工作(例如將數據載入和轉換成數據湖)等工作負載與加值作業分開(例如報告、儀錶板和數據科學特徵工程)。 使用數據格式、數據品質和數據生命週期的指導方針來定義中央數據目錄。

  2. 使用開放式介面和開放式數據格式

    通常,解決方案是在開發時只能透過特定系統存取資料。 這可能會導致廠商鎖定,但如果透過該系統的數據存取受限於授權費用,它也可能成為巨大的成本驅動因素。 使用開放式數據格式和介面有助於避免這種情況。 他們還簡化與現有系統的整合,並開放已將其工具與 Lakehouse 整合的合作夥伴生態系統。

    如果您使用 Python 或 R 等開放原始碼生態系統來進行資料科學,或者使用 Spark 或 ANSI SQL 來進行資料存取和存取權限控制,那麼您將能更輕鬆地為項目尋找合適的人員。 它也會簡化平台之間的潛在移轉。

  3. 簡化新的用例實作

    若要充分利用 Data Lake 中的數據,用戶必須能夠輕鬆地在平臺上部署其使用案例。 這從平臺存取和數據管理的精簡程序開始。 例如,對平台的自助存取有助於防止中央團隊成為瓶頸。 用於部署新環境的共享環境和預先定義的藍圖可確保平臺可供任何商務使用者快速使用。

  4. 確保數據一致性和可用性

    數據平臺上的兩個重要活動是 數據發佈數據耗用量。 從發佈的觀點來看,數據應該以產品的形式提供。 發行者必須遵循考量到消費者的已定義生命週期,且資料必須以管理的結構、描述等方式清楚定義。

    也請務必提供語意一致的數據,讓取用者可以輕鬆地瞭解並正確地結合不同的數據集。 此外,所有數據都必須透過中央目錄輕鬆地探索並可供取用者使用適當策劃的元數據和數據譜系來存取。

下一步:互操作性和可用性的最佳做法

請參閱 互操作性和可用性的最佳作法。