共用方式為


Lakehouse 平台的範圍

新式資料和 AI 平台架構

若要討論 Databricks Data Intelligence Platform 的範圍,先定義新式資料和 AI 平台的基本架構會很有用:

雲端數據分析架構。

Lakehouse 範圍概觀

Databricks Data Intelligence Platform 涵蓋完整的新式資料平台架構。 其建置在 Lakehouse 架構之上,由資料智慧引擎提供支援,該引擎可理解資料的獨特品質。 它是 ETL、ML/AI 和 DWH/BI 工作負載的開放且統一的基礎,並具有 Unity Catalog 作為中央數據和 AI 治理解決方案。

平台架構的角色

此架構涵蓋在架構中處理應用程式的主要資料小組成員 (角色):

  • 資料工程師為資料科學家和商務分析師提供準確且可重現的資料,以便及時做出決策和提供即時見解。 他們實作高度統一且可靠的 ETL 程序,以增加使用者對資料的信心和信任。 他們確保資料與商務的各個支柱很好地整合,並且通常遵循軟體工程最佳做法。
  • 資料科學家結合分析專長和商務見解,將資料轉化為策略見解和預測模型。 他們善於將商務挑戰轉換為資料驅動型解決方案,即透過追溯分析見解或前瞻性預測建模。 利用資料建模和機器學習技術,他們設計、開發和部署模型,透過資料揭示模式、趨勢和預測。 他們充當溝通的橋樑,將複雜的資料敘述轉換為可理解的案例,確保商務專案關係人不僅理解,而且還可以根據資料驅動型建議採取行動,進而推動以資料為中心的方法來解決組織內部的問題。
  • ML 工程師 (機器學習工程師) 透過建置、部署和維護機器學習模型,領導資料科學在產品和解決方案中的實際應用。 他們主要關注模型開發和部署的工程方面。 ML 工程師確保機器學習系統在即時環境中的穩健性、可靠性和可擴縮性,應對與資料品質、基礎結構和效能相關的挑戰。 透過將 AI 和 ML 模型整合到運營商務程序和面向使用者的產品,他們促進了利用資料科學來解決商務挑戰,確保模型不僅僅停留在研究階段,而是能帶來切實的商業價值。
  • 商務分析師商務使用者:商務分析師為專案關係人和商務小組提供可採取動作的數據。 它們通常會使用標準 BI 工具來解譯數據並建立報表或其他檔來管理。 它們通常是非技術性商務使用者和營運同事的第一個連絡點,可快速分析問題。 商務使用者可以直接使用在 Databricks 平臺上提供的儀錶板和商務應用程式。
  • 商務合作夥伴是日益網路化的商務世界中的重要利害關係人。 他們定義為與企業建立了正式關係以實現共同目標的公司或個人,可以包括廠商、供應商、經銷商和其他協力廠商合作夥伴。 資料共用是商務合作關係的一個重要方面,因為它透過資料傳輸和交換資料來增強協作和資料驅動型決策。

平台架構的網域

平台包含多個網域:

  • 記憶體: 在雲端中,數據主要儲存在雲端 providers上可調整、有效率且具復原性的物件記憶體中。

  • 控管:有關資料控管的功能,例如存取控制、稽核、中繼資料管理、譜系追蹤、以及所有資料和 AI 資產的監視。

  • AI 引擎:AI 引擎為整個平台提供生成式 AI 功能。

  • 內嵌和轉換:ETL 工作負載的功能。

  • 進階分析、ML 和 AI:所有有關機器學習、AI、生成式 AI 的功能以及串流分析。

  • 資料倉儲:支援 DWH 和 BI 使用案例的網域。

  • 自動化: 數據處理、機器學習、分析管線的工作流程管理,包括 CI/CD 和 MLOps 支援。

  • ETL 和 DS 工具:資料工程師、資料科學家和 ML 工程師在工作中主要使用的前端工具。

  • BI 工具:BI 分析師在工作中主要使用的前端工具。

  • 共同作業:兩個或多個參與方之間共用資料的功能。

Databricks 平台的範圍

Databricks Data Intelligence Platform 及其元件可以透過下列方式對應至架構:

湖屋範圍圖。

下載:Lakehouse 的範圍 - Databricks 元件

Azure Databricks 上的資料工作負載

最重要的是,Databricks Data Intelligence Platform 在一個平台中涵蓋了資料網域的所有相關工作負載,使用 Apache Spark/Photon 作為引擎:

  • 內嵌和轉換

    Databricks 提供數種方式的數據擷取:

    • Databricks LakeFlow Connect 提供內建連接器,以便從企業應用程式和資料庫中匯入數據。 產生的資料擷取管線由 Unity Catalog 控管,並由無伺服器運算和 Delta Live Tables提供支持。
    • 自動加載器 會以累加方式自動處理抵達雲端儲存空間的檔案,不需要管理狀態資訊,這些處理可以以排程或連續作業進行。 擷取之後,需要轉換未經處理資料,準備將其用於 BI 和 ML/AI。 Databricks 為資料工程師、資料科學家和分析師提供強大的 ETL 功能。

    Delta Live Tables (DLT) 允許以宣告方式撰寫 ETL 作業,以簡化整個實作程式。 可以透過定義資料預期來提高資料品質。

  • 進階分析、ML 和 AI

    此平臺包括 Databricks 馬賽克 AI傳統機器學習和深度學習的完整整合機器學習和 AI 工具 set,以及 產生 AI 和大型語言模型 (LLM)。 其涵蓋整個工作流程,從準備資料至建置機器學習深度學習模型,再至 Mosaic AI 模型服務

    Spark 結構化串流DLT 可啟用即時分析。

  • 資料倉儲

    Databricks Data Intelligence Platform 也有完整的數據倉儲解決方案,其中包含 Databricks SQL,由 Unity Catalog 集中控管,具有更細緻的訪問控制。

    AI 函式 是內建的 SQL 函式,可讓您直接從 SQL 將數據套用 AI。 將 AI 整合到分析工作流程可提供分析人員先前無法存取的資訊存取權,並讓他們能夠透過數據驅動的創新和效率,做出更明智的決策、管理風險,並維持競爭優勢。

Azure Databricks 特徵區域概述

這是 Databricks Data Intelligence Platform 特徵從下到上對應至架構的其他層級:

  • 雲端儲存空間

    Lakehouse 的所有資料都儲存在雲端提供者的物件儲存體中。 Databricks 支援三個雲端 providers:AWS、Azure 和 GCP。 各種結構化和半結構化格式的檔案(例如 Parquet、CSV、JSON 和 Avro),以及非結構化格式(例如影像和檔),會使用批次或串流程式來擷取和轉換。

    Delta Lake 是 Lakehouse (檔案交易、可靠性、一致性、更新等等) 的建議資料格式,並且是完全開放原始碼的,以避免產生依賴。 而 Delta Universal Format (UniForm) 可讓您使用 Iceberg 讀取器用戶端讀取 Delta tables。

    Databricks Data Intelligence Platform 中不使用專屬資料格式。

  • 數據和 AI 治理

    在儲存層之上,Unity Catalog 提供各種數據和 AI 治理功能,包括中繼存放區中的 元數據管理訪問控制稽核數據探索,以及 數據譜系

    Lakehouse 監視為資料和 AI 資產提供現成的品質計量,並自動產生儀表板以視覺化這些計量。

    外部 SQL 來源可以透過 lakehouse 同盟整合到 lakehouse 和 Unity Catalog。

  • AI 引擎

    Data Intelligence Platform 基於 Lakehouse 架構建置,由資料智慧引擎 DatabricksIQ 增強。 DatabricksIQ 將生成式 AI 與 Lakehouse 架構的統一優勢相結合,以理解資料的獨特語意。 智慧搜尋和 Databricks 助理是 AI 支援的服務的範例,可簡化每個使用者的平台操作。

  • 協調流程

    Databricks 作業可讓您在任何雲端上為完整資料和 AI 生命週期執行各種工作負載。 它們可讓您協調作業,以及管理 SQL、Spark、筆記本、DBT、ML 模型等的 Delta Live Tables。

    平臺也支援 CI/CDMLOps

  • ETL 和 DS 工具

    在取用層,資料工程師和 ML 工程師通常透過 IDE 來使用平台。 資料科學家通常偏好筆記本,並使用 ML 和 AI 執行階段,以及機器學習工作流程系統 MLflow 來追蹤實驗和管理模型生命週期。

  • BI 工具

    商務分析師通常使用慣用的 BI 工具來存取 Databricks 資料倉儲。 您可以透過不同的分析和 BI 工具查詢 Databricks SQL,請參閱 BI 和視覺效果

    此外,平台提供現成的查詢和分析工具:

    • AI/BI 儀錶板 用於拖放數據可視化並分享見解。
    • 領域專家,例如數據分析師,使用數據集、範例查詢和文字指導方針來設定 AI/BI Genie 空間,以協助 Genie 將商務問題轉譯成分析查詢。 set 之後,企業用戶可以提出問題並使用 generate 圖表視覺化,以瞭解營運數據。
    • Databricks Apps 可讓開發人員在 Databricks 平臺上建立安全的數據和 AI 應用程式,並與使用者共用這些應用程式。
    • SQL 編輯器,供 SQL 分析師分析資料。
  • 共同作業

    差異共用是由 Databricks 開發的開放通訊協定,可供與其他組織安全地共用資料,不論他們使用什麼計算平台。

    Databricks Marketplace 是用於交換資料產品的開放論壇。 它利用 Delta Sharing 為數據 providers 提供工具,以安全地共用數據產品,並為數據取用者提供探索和擴大存取所需數據和數據服務的能力。

    潔淨室 使用 Delta 分享和無伺服器計算架構來提供安全且隱私保護的環境,where 使多方可以在不直接存取彼此資料的情況下,共同處理敏感企業資料。