共用方式為


Lakehouse 參考架構 (下載)

本文涵蓋數據源、擷取、轉換、查詢和處理、服務、分析和記憶體方面的 Lakehouse 架構指引。

每個參考架構都有 11 x 17 (A3) 格式的可下載 PDF。

雖然 Databricks 上的 Lakehouse 是一個開放平臺,可與 大型合作夥伴工具生態系統整合,但參考架構僅著重於 Azure 服務和 Databricks Lakehouse。 所顯示的雲端提供者服務會選取來說明概念,而且並不詳盡。

Azure Databricks lakehouse 的參考架構。

下載:Azure Databricks lakehouse 的參考架構

Azure 參考架構顯示下列用於引入、存儲、提供和分析的 Azure 特定服務:

  • 作為 Lakehouse 同盟來源系統的 Azure Synapse 和 SQL Server
  • 用於串流擷取的 Azure IoT 中樞和 Azure 事件中樞
  • 用於批次擷取的 Azure Data Factory
  • 用作物件儲存體的 Azure Data Lake Storage Gen 2 (ADLS)
  • 用作操作資料庫的 Azure SQL DB 和 Azure Cosmos DB
  • Azure Purview 作為 UC 將企業 catalog 和譜系資訊匯出至 schema 的平台
  • 用作 BI 工具的 Power BI

參考架構的組織

參考架構會沿著泳道 來源導入轉換查詢/處理服務分析儲存

  • 來源

    此架構可區分半結構化和非結構化資料 (感應器和IoT、媒體、檔案/記錄) 以及結構化資料 (RDBMS、商務應用程式)。 zh-TW: SQL 來源(RDBMS)也可以整合到 Lakehouse 和 Unity Catalog 中,不需要透過 ETL,而是透過 lakehouse 同盟。 此外,數據可能會從其他雲端 providers載入。

  • 擷取

    資料可以透過批次或串流擷取到 Lakehouse:

    • Databricks LakeFlow Connect 提供內建連接器,可從企業應用程式和資料庫匯入資料。 產生的擷取管線由 Unity Catalog 所控管,並由無伺服器計算和 Delta Live Tables支持。
    • 傳遞至雲端儲存的檔案可以直接使用 Databricks Auto Loader 來載入。
    • 針對從企業應用程式到 Delta Lake 的批次資料擷取,Databricks lakehouse 依賴於合作夥伴擷取工具,它們具有適用於這些記錄系統的特定配接器。
    • 可以直接從事件串流系統擷取串流事件,例如使用 Databricks 結構化串流的 Kafka。 串流來源可以是感應器、IoT 或異動資料擷取程序。
  • Storage

    數據通常會儲存在雲端儲存系統中,where ETL 管線使用 Medallion 架構,以 Delta 文件/tables優化方式儲存數據。

  • 轉換查詢/處理

    Databricks Lakehouse 會針對所有轉換和查詢使用其引擎 Apache SparkPhoton

    DLT (Delta Live Tables)是一種宣告式架構,可簡化和優化可靠、可維護且可測試的數據處理管線。

    Databricks Data Intelligence Platform 由 Apache Spark 和 Photon 提供支援,可支援兩種類型的工作負載:透過 SQL 倉儲進行的 SQL 查詢,以及透過工作區叢集進行的 SQL、Python 和 Scala 工作負載。

    對資料科學 (ML 模型化和生成式 AI),Databricks AI 和機器學習平台提供適用於 AutoML 和編碼 ML 工作的特製化 ML 執行階段。 所有資料科學和 MLOps 工作流程都受到 MLflow 的最佳支援。

  • 服務

    針對 DWH 和 BI 使用案例,Databricks Lakehouse 會提供 Databricks SQLSQL 倉儲支援的資料倉儲以及無伺服器 SQL 倉儲

    針對機器學習,模型服務是可調整、即時、企業級的模型,服務於 Databricks 控制平面中託管的功能。 馬賽克 AI 閘道 是 Databricks 解決方案,可用來控管和監視支援的產生式 AI 模型及其相關聯的模型服務端點。

    操作資料庫:諸如操作資料庫等外部系統可用來儲存最終資料產品並傳遞給使用者應用程式。

    共同作業:商務合作夥伴 get 透過 Delta Sharing來保護他們所需的數據存取權。 以 Delta Sharing 為基礎,Databricks Marketplace 是用於交換資料產品的開放論壇。

  • 分析

    最終的商務應用程式就在此泳道中。 範例包括自訂用戶端,例如連線至 Mosaic AI 模型服務進行即時推斷的 AI 應用程式,或存取從 Lakehouse 到操作資料庫之資料推送的應用程式。

    針對 BI 使用案例,分析師通常會使用 BI 工具來存取資料倉儲。 SQL 開發人員也可以使用 Databricks SQL 編輯器 (未顯示在圖表中) 進行查詢和儀表板操作。

    Data Intelligence Platform 也提供儀表板來建置資料視覺效果並共用見解。

  • 整合

    • Databricks 平臺整合標準身份識別 providers,以便於 用戶管理單一登入(SSO)

    • OpenAILangChainHuggingFace 等外部 AI 服務可以直接在 Databricks Intelligence Platform 內使用。

    • 外部協調器可以使用完整的 REST API,或者使用專用的連接器來連接到 Apache Airflow等外部協調工具。

    • Unity Catalog 可用於 Databricks Intelligence Platform 中的所有數據 & AI 治理,並可透過 Lakehouse Federation將其他資料庫整合到其治理中。

      此外,Unity Catalog 可以整合到其他企業 catalogs,例如 Purview。 如需詳細資訊,請連絡企業 catalog 廠商。

所有工作負載的常見功能

此外,Databricks Lakehouse 隨附可支援所有工作負載的管理功能:

  • 資料和 AI 治理

    Databricks Data Intelligence Platform 中的中央數據和 AI 治理系統 Unity Catalog。 Unity Catalog 提供單一位置來管理適用於所有工作區的數據存取原則,並支援在 lakehouse 中建立或使用的所有資產,例如 tables、volumes、功能(功能存放區),以及模型(模型登錄)。 Unity Catalog 也可以用來在 Databricks 上執行的查詢之間 擷取運行時間數據譜系

    Databricks lakehouse 監控功能 可讓您監控帳戶中所有 tables 的數據品質。 它也可以追蹤機器學習模型和模型服務端點的效能。

    為了增強可觀測性,系統 tables 是由 Databricks 託管的帳戶運營數據分析存儲庫。 系統 tables 可以用來監控帳戶歷史記錄的可見性。

  • 資料智慧引擎

    Databricks Data Intelligence Platform 可讓整個組織使用資料和 AI。 它由 DatabricksIQ 提供支援,將生成式 AI 與 Lakehouse 的統一優勢相結合,以理解資料的獨特語意。

    Databricks Assistant 可在 Databricks 筆記本、SQL 編輯器和檔案編輯器中使用,做為開發人員的內容感知 AI 助理。

  • 自動化 & 協調流程

    Databricks 工作可在 Databricks Data Intelligence Platform 中協調資料處理、機器學習和分析管線。 Delta Live Tables 可讓您使用宣告式語法建置可靠且可維護的 ETL 管線。 平臺也支援 CI/CDMLOps

Azure 上 Data Intelligence Platform 的高階使用案例

Databricks LakeFlow Connect 提供內建連接器,可從企業應用程式和資料庫匯入資料。 產生的資料擷取管線由 Unity Catalog 管控,並由無伺服器運算和 Delta Live Tables提供支援。 LakeFlow Connect 利用有效率的累加式讀取和寫入,讓數據擷取更快、可調整且更具成本效益,而您的數據仍保持最新狀態以供下游取用。

使用案例:使用 Lakeflow Connect 導入資料:

在 Azure Databricks 上使用 Lakeflow Connect 進行資料引入 。

下載:適用於 Azure Databricks 的 Batch ETL 參考架構。

使用案例:批處理 ETL

Azure Databricks 上批次 ETL 的參考架構。

下載:Azure Databricks 的批處理 ETL 參考架構

擷取工具使用特定來源配接器來讀取來源的數據,然後將其儲存在雲端儲存中以供 where 自動載入器讀取,或直接呼叫 Databricks(例如,將合作夥伴的資料擷取工具整合到 Databricks Lakehouse 中)。 若要載入資料,Databricks ETL 和處理引擎會透過 DLT 執行查詢。 單一或多任務工作流程可由 Databricks 作業協調,並受 Unity Catalog 管理(存取控制、稽核、譜系等等)。 如果低延遲操作系統需要存取特定黃金資料 tables,則可以匯出至作業資料庫,例如 ETL 管線結尾的 RDBMS 或鍵值存儲。

使用案例:串流和異動資料擷取 (CDC)

Azure Databricks 上的 Spark 結構化串流架構。

下載:Azure Databricks 的 Spark 結構化串流架構

Databricks ETL 引擎會使用 Spark 結構化串流從 Apache Kafka 或 Azure 事件中樞等事件佇列中讀取。 下游步驟遵循上述批處理使用案例的方法。

即時異動資料擷取 (CDC) 通常會使用事件佇列來儲存擷取的事件。 從那裡開始,使用案例會遵循串流使用案例。

如果 CDC 是在批次 where 中完成,擷取的記錄會先儲存在雲端儲存中,然後 Databricks 自動載入器可以讀取它們,並且使用案例遵循批次 ETL。

使用案例:機器學習和 AI

適用於 Azure Databricks 的機器學習和 AI 參考架構。

下載:適用於 Azure Databricks 的機器學習和 AI 參考架構

針對機器學習,Databricks Data Intelligence Platform 提供 Mosaic AI,其隨附有最先進的機器學習和深度學習媒體庫。 它提供功能存放區和模型登錄等功能(兩者都整合至 Unity Catalog)、具有 AutoML 的低程式代碼功能,以及 MLflow 整合到數據科學生命週期中。

所有數據科學相關資產(tables、特性和模型)都受到 Unity Catalog 控管,數據科學家可以使用 Databricks 作業來協調其工作。

若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。

使用案例:擷取擴增生成 (Gen AI)

Azure Databricks 的 Gen AI RAG 參考架構。

下載:適用於 Azure Databricks 的 Gen AI RAG 參考架構

針對生成式 AI 使用案例,Mosaic AI 隨附有最先進的程式庫和特定的 Gen AI 功能,從提示工程到微調現有模型,以及從頭開始預先訓練。 上述架構示範如何整合向量搜尋來建立 RAG (擷取擴增生成) AI 應用程式的範例。

若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。

使用案例:BI 和 SQL 分析

Azure Databricks 的 BI 和 SQL 分析參考架構。

下載:Azure Databricks 的 BI 和 SQL 分析參考架構

針對 BI 使用案例,商務分析師可以使用儀表板、Databricks SQL 編輯器或諸如 Tableau 或 Power BI 等特定 BI 工具。 在所有情況下,引擎都是 Databricks SQL(無伺服器或非無伺服器),且數據發現、探索和存取控制是由 Unity Catalog提供。

使用案例:Lakehouse 同盟

Azure Databricks 的 Lakehouse 同盟參考架構。

下載:Azure Databricks 的 Lakehouse 同盟參考架構

Lakehouse 同盟允許外部資料 SQL 資料庫 (例如 MySQL、Postgres、SQL Server 或 Azure Synapse) 與 Databricks 整合。

所有工作負載 (AI、DWH 和 BI) 可以從中受益,而不需要先將資料 ETL 到物件儲存體。 外部來源 catalog 會映射到 Unity catalog,並可透過 Databricks 平台施行更細緻的存取控制。

使用案例:企業資料共用

Azure Databricks 的企業數據共享參考架構。

下載:Azure Databricks 的企業資料共用參考架構

企業級資料共用由 Delta Sharing 提供。 它提供 Unity Catalog所保護之物件存放區中數據的直接存取權,而 Databricks Marketplace 是交換數據產品的開放論壇。