編輯

共用方式為


使用 Azure Databricks 建立新式分析架構

Azure Databricks
Microsoft Fabric
Power BI
Azure Data Lake 儲存體

解決方案構想

本文說明解決方案概念。 您的雲端架構師可以使用本指南,協助視覺化此架構的一般實作的主要元件。 以本文為起點,設計符合您工作負載具體要求的完善解決方案。

此解決方案概述新式數據架構的主要原則和元件。 Azure Databricks 會形成解決方案的核心。 此平臺可順暢地與其他服務搭配運作,例如 Azure Data Lake Storage、Microsoft Fabric 和 Power BI。

Apache 和 Apache® Spark™ 是 美國 和/或其他國家/地區的 Apache Software Foundation 註冊商標或商標。 使用這些標記不會隱含 Apache Software Foundation 的背書。

架構

顯示新式數據架構如何收集、處理、分析及可視化數據的架構圖表。

下載此架構的 Visio 檔案

資料流程

  1. Azure Databricks 會使用差異實時數據表,從 Azure 事件中樞內嵌原始串流數據。

  2. 網狀架構 Data Factory 會將原始批次數據載入 Data Lake Storage。

  3. 針對資料記憶體:

    • Data Lake Storage 會儲存所有類型的數據,包括結構化、非結構化和部分結構化數據。 它也會儲存批次和串流數據。

    • Delta Lake 會形成數據湖的策劃層。 它會以開放原始碼格式儲存精簡的數據。

    • Azure Databricks 適用於 將數據組織成圖層的獎牌架構

      • 銅層:保存原始數據。
      • 銀層:包含已清除、篩選的數據。
      • 黃金層:儲存適用於商務分析的匯總數據。
  4. 分析平臺會從不同的批次和串流來源擷取數據。 數據科學家會針對如下的工作使用此數據:

    • 資料準備。
    • 數據探索。
    • 模型準備。
    • 模型定型。

    MLflow 會管理數據科學程式碼執行中的參數、計量和模型追蹤。 程式代碼撰寫可能性具有彈性:

    • 程式代碼可以在 SQL、Python、R 和 Scala 中。
    • 程序代碼可以使用熱門的開放原始碼連結庫和架構,例如 Koalas、Pandas 和 scikit-learn,這些連結庫已預安裝並優化。
    • 使用者可以使用單一節點和多節點計算選項來優化效能和成本。
  5. 機器學習模型的格式如下:

    • Azure Databricks 會將模型的相關信息儲存在 MLflow 模型登錄。 登錄可透過批次、串流和 REST API 提供模型。
    • 解決方案也可以將模型部署到 Azure 機器學習 Web 服務或 Azure Kubernetes Service (AKS)。
  6. 使用數據的服務會連線到單一基礎數據源,以協助確保一致性。 例如,您可以使用 Azure Databricks SQL 倉儲,在 Data Lake 上執行 SQL 查詢。 這個服務可以:

    • 提供查詢編輯器和目錄、查詢歷程記錄、基本儀錶板和警示。
    • 使用包含數據列層級許可權和數據行層級許可權的整合式安全性。
    • 使用 Photon 支援的 Delta 引擎來改善效能
  7. 您可以將 Azure Databricks Unity 目錄中的黃金數據集鏡像到 Fabric。 在 Fabric 中使用 Azure Databricks 鏡像,輕鬆整合,而不需要移動或復寫數據。

  8. Power BI 會從統一的數據平台產生分析和歷程記錄報表和儀錶板。 此服務在與 Azure Databricks 搭配運作時會使用下列功能:

    • 內建的 Azure Databricks 連接器,用於可視化基礎數據。
    • 優化的 Java 資料庫連線能力和開啟資料庫連線驅動程式。
    • 您可以在 Fabric 中使用 Direct Lake 搭配 Azure Databricks 鏡像,以載入 Power BI 語意模型以進行高效能查詢。
  9. 此解決方案使用 Unity 目錄和 Azure 服務進行共同作業、效能、可靠性、治理和安全性:

    • Azure Databricks Unity 目錄提供跨 Azure Databricks 工作區的集中式訪問控制、稽核、譜系和數據探索功能。

    • Microsoft Purview 提供跨數據資產的數據探索服務、敏感數據分類和治理深入解析。

    • Azure DevOps 提供持續整合和持續部署 (CI/CD) 和其他整合版本控制功能。

    • Azure Key Vault 可協助您安全地管理秘密、密鑰和憑證。

    • Microsoft Entra ID 和 System for Cross-domain Identity Management (SCIM) 布建可為 Azure Databricks 使用者和群組提供單一登錄。 Azure Databricks 支援使用 Microsoft Entra ID 的自動化使用者布建,以:

      • 建立新的使用者和群組。
      • 將存取層級指派給每個使用者。
      • 拿掉使用者並拒絕他們存取權。
    • Azure 監視器會收集和分析 Azure 資源遙測。 藉由主動識別問題,此服務可最大化效能和可靠性。

    • Microsoft成本管理為 Azure 工作負載提供財務治理服務。

元件

此解決方案會使用下列元件。

核心元件

  • Azure Databricks 是使用 Spark 叢集來處理大型數據流的數據分析平臺。 它會清理並轉換非結構化數據,並將其與結構化數據結合。 它也可以定型和部署機器學習模型。 在此架構中,Azure Databricks 可作為數據擷取、處理及服務的中央工具。 它提供統一的環境來管理整個數據生命週期。

  • Azure Databricks SQL 倉儲 是可用來查詢和探索 Azure Databricks 數據的計算資源。 在此架構中,您可以使用 SQL 端點直接從 Power BI 連線到您的數據。

  • Azure Databricks Delta Live Tables 是一種宣告式架構,可建置可靠、可維護且可測試的數據處理管線。 在此架構中,Delta Live Tables 可協助您定義轉換以對數據執行。 它也可協助您管理工作協調流程、叢集管理、監視、數據品質,以及 Azure Databricks 內的錯誤處理。

  • Microsoft Fabric 是一個端對端分析和數據平臺,適用於需要統一解決方案的組織。 此平臺提供數據工程、Data Factory、數據科學、Real-Time 智慧、數據倉儲和資料庫等服務。 此架構會將 Unity 目錄數據表鏡像到 Fabric 中,並使用 Power BI 中的 Direct Lake 來提升效能。

  • Microsoft Fabric 中的 Data Factory 是一種現代化數據整合平臺,可用來從 Fabric 中的一組豐富數據源擷取、準備及轉換數據。 此架構會使用內建連接器到數個數據源,以快速擷取至 Data Lake Storage 或 OneLake。 Azure Databricks 稍後會擷取並進一步轉換批次數據。

  • 事件中樞 是完全受控的巨量數據串流平臺。 作為平臺即服務,它提供事件擷取功能。 此架構會使用事件中樞進行串流數據。 Azure Databricks 可以連線到此數據,並使用 Spark 串流或差異實時數據表加以處理。

  • Data Lake Storage 是可調整且安全的 Data Lake,可進行高效能分析。 它會處理數 PB 的數據,並支援數百 GB 的輸送量。 Data Lake Storage 可以儲存結構化、部分結構化和非結構化數據。 此架構會使用 Data Lake Storage 來儲存批次和串流數據。

  • 機器學習 是雲端式環境,可協助您建置、部署及管理預測性分析解決方案。 您可以使用這些模型來預測行為、結果和趨勢。 在此架構中,Machine Learning 會使用 Azure Databricks 轉換的數據來定型和推斷模型。

  • AKS 是高可用性、安全且完全受控的 Kubernetes 服務。 AKS 可讓您輕鬆地部署和管理容器化應用程式。 在此架構中,AKS 會在容器化環境中裝載機器學習模型,以進行可調整的推斷。

  • Delta Lake 是使用開放式檔格式的儲存層。 此層會在 Data Lake Storage 等雲端記憶體解決方案之上執行。 Delta Lake 支援用於更新、刪除和合併數據的數據版本設定、復原和交易。 在此架構中,Delta Lake 可作為從 Data Lake Storage 寫入和讀取數據的主要檔格式。

  • MLflow 是一個開放原始碼平臺,用於管理機器學習生命週期。 其元件會在定型和作業期間監視機器學習模型。 在此架構中,類似於 Machine Learning,您可以使用 Azure Databricks 中的 MLflow 來管理機器學習生命週期。 使用您在 Azure Databricks 內轉換的 Unity 目錄數據來定型和推斷模型。

報告及控管元件

  • Azure Databricks Unity 目錄 提供跨 Azure Databricks 工作區的集中式訪問控制、稽核、譜系和數據探索功能。 在此架構中,Unity 目錄可作為 Azure Databricks 中的主要工具,來管理和保護數據存取。

  • Power BI 是軟體服務和應用程式的集合。 這些服務會建立和共享報表,以連接和可視化不相關的數據源。 Power BI 與 Azure Databricks 一起,可以提供根本原因判斷和原始數據分析。 此架構會使用 Power BI 來建立儀錶板和報表,以深入瞭解 Azure Databricks 和 Fabric 程式的數據。

  • Microsoft Purview 會管理內部部署、多雲端和軟體即服務 (SaaS) 數據。 此治理服務會維護數據橫向對應。 其功能包括自動化數據探索、敏感數據分類和數據譜系。 此架構會使用 Microsoft Purview 來掃描和追蹤內嵌在 Unity 目錄、網狀架構、Power BI 和 Data Lake Storage 中的數據。

  • Azure DevOps 是 DevOps 協調流程平臺。 此 SaaS 提供工具和環境,以建置、部署及共同作業應用程式。 此架構會使用 Azure DevOps 將 Azure 基礎結構的部署自動化。 您也可以使用 GitHub 進行 Azure Databricks 程式代碼的自動化和版本控制,以取得更好的共同作業、變更追蹤,以及與 CI/CD 管線的整合。

  • Key Vault 儲存及控制秘密的存取,例如令牌、密碼和 API 金鑰。 Key Vault 也建立和控制加密金鑰,並管理安全性憑證。 此架構會使用 Key Vault 從 Data Lake Storage 儲存共用存取簽章密鑰。 接著,這些密鑰會用於 Azure Databricks 和其他服務以進行驗證。

  • Microsoft Entra ID 提供雲端式身分識別和存取管理服務。 這些功能提供讓使用者登入和存取資源的方式。 此架構會使用 Microsoft Entra 識別碼來驗證及授權 Azure 中的使用者和服務。

  • SCIM 可讓您使用 Microsoft Entra ID 設定布建至 Azure Databricks 帳戶。 此架構會使用 SCIM 來管理存取 Azure Databricks 工作區的使用者。

  • Azure 監視器 收集和分析環境和 Azure 資源中的數據。 此數據報括應用程式遙測,例如效能計量和活動記錄。 此架構會使用 Azure 監視器來監視 Azure Databricks 和 Machine Learning 和其他將記錄傳送至 Azure 監視器的計算資源健康情況。

  • 成本管理 可協助您管理雲端支出。 此服務會使用預算和建議來組織費用,並示範如何降低成本。 此架構會使用成本管理來協助監視和控制整個解決方案的成本。

案例詳細資料

新式資料架構:

  • 統一數據、分析和 AI 工作負載。
  • 在任何規模上有效率且可靠地執行。
  • 透過分析儀錶板、操作報告或進階分析提供深入解析。

此解決方案概述達成這些目標的新式數據架構。 Azure Databricks 會形成解決方案的核心。 此平臺可與其他服務順暢地運作。 這些服務會一起提供下列解決方案:

  • 簡單:整合分析、數據科學和機器學習可簡化數據架構。
  • Open:解決方案支援開放原始碼程式代碼、開放標準和開放架構。 它也適用於熱門的整合開發環境 (IDE)、連結庫和程式設計語言。 透過原生連接器和 API,解決方案也適用於各種其他服務。
  • 共同作業:數據工程師、數據科學家和分析師會與此解決方案合作。 他們可以使用共同作業筆記本、IDE、儀錶板和其他工具來存取和分析一般基礎數據。

潛在使用案例

瑞士再集團為其財產和傷亡再保險部門建造的系統激發了這一解決方案。 除了保險業之外,任何與巨量數據或機器學習搭配運作的領域,也可以受益於此解決方案。 範例包含:

  • 能源部門。
  • 零售和電子商務。
  • 銀行和金融。
  • 醫學和醫療保健。

下一步

若要瞭解相關解決方案,請參閱下列指南和架構。