解決方案構想
本文說明解決方案概念。 您的雲端架構師可以使用本指南,協助視覺化此架構的一般實作的主要元件。 以本文為起點,設計符合您工作負載具體要求的完善解決方案。
此解決方案概述新式數據架構。 Azure Databricks 會形成解決方案的核心。 此平臺可順暢地與其他服務搭配運作,例如 Azure Data Lake Storage Gen2、Microsoft Fabric 和 Power BI。
Apache 和 Apache® Spark™ 是 美國 和/或其他國家/地區的 Apache Software Foundation 註冊商標或商標。 使用這些標記不會隱含 Apache Software Foundation 的背書。
架構
下載此架構的 Visio 檔案。
資料流程
Azure Databricks 會使用差異即時數據表從 Azure 事件中樞內嵌原始串流數據。
Fabric Data Factory 會將原始批次數據載入 Data Lake Storage Gen2。
針對資料記憶體:
Data Lake Storage Gen2 會儲存所有類型的數據,例如結構化、非結構化和半結構化。 它也會儲存批次和串流數據。
Delta Lake 會形成數據湖的策劃層。 它會以開放原始碼格式儲存精簡的數據。
Azure Databricks 適用於 將數據組織成圖層的獎牌架構 :
- 銅牌:保存未經處理的數據。
- Silver:包含已清除、篩選的數據。
- 黃金:儲存適用於商務分析的匯總數據。
分析平臺會從不同的批次和串流來源擷取數據。 數據科學家會針對下列工作使用此數據:
- 資料準備。
- 數據探索。
- 模型準備。
- 模型定型。
MLflow 會管理數據科學程式碼執行中的參數、計量和模型追蹤。 程式代碼撰寫可能性具有彈性:
- 程式代碼可以在 SQL、Python、R 和 Scala 中。
- 程序代碼可以使用熱門的開放原始碼連結庫和架構,例如 Koalas、Pandas 和 scikit-learn,這些連結庫已預安裝並優化。
- 從業者可以使用單一節點和多節點計算選項來優化效能和成本。
機器學習模型提供數種格式:
- Azure Databricks 會將模型的相關信息儲存在 MLflow 模型登錄中。 登錄可透過批次、串流和 REST API 提供模型。
- 解決方案也可以將模型部署到 Azure 機器學習 Web 服務或 Azure Kubernetes Service (AKS)。
使用數據的服務會連線到單一基礎數據源,以確保一致性。 例如,使用者可以使用 Azure Databricks SQL Warehouse 在 Data Lake 上執行 SQL 查詢。 這個服務可以:
- 提供查詢編輯器和目錄、查詢歷程記錄、基本儀錶板和警示。
- 使用包含數據列層級和數據行層級許可權的整合式安全性。
- 使用 Photon 支援的 Delta 引擎來加速效能。
用戶可以將 Databricks Unity 目錄中的黃金數據集鏡像到 Fabric。 Fabric 中的 Databricks 鏡像 可讓用戶輕鬆整合,而不需要數據移動或數據復寫。
Power BI 會從統一的數據平台產生分析和歷程記錄報表和儀錶板。 使用 Azure Databricks 時,此服務會使用這些功能:
- 內建的 Azure Databricks 連接器,用於可視化基礎數據。
- 優化的 Java 資料庫連線能力 (JDBC) 和開放式資料庫連線能力 (ODBC) 驅動程式。
- 在 Fabric 中使用 Databricks 鏡像,您可以利用 Direct Lake 載入 PBI 語意模型,以取得更高的效能查詢。
此解決方案使用 Unity 目錄和 Azure 服務進行共同作業、效能、可靠性、治理和安全性:
Databricks Unity 目錄提供跨 Azure Databricks 工作區的集中式訪問控制、稽核、譜系和數據探索功能。
Microsoft Purview 提供跨數據資產的數據探索服務、敏感數據分類和治理深入解析。
Azure DevOps 提供持續整合和持續部署 (CI/CD) 和其他整合版本控制功能。
Azure 金鑰保存庫 安全地管理秘密、金鑰和憑證。
Microsoft Entra ID 和 SCIM 布建可為 Azure Databricks 使用者和群組提供單一登錄(SSO)。 Azure Databricks 針對下列工作支援使用 Microsoft Entra ID 的自動化使用者布建:
- 建立新的使用者和群組。
- 將每個使用者指派存取層級。
- 拿掉使用者並拒絕他們存取權。
Azure 監視器會收集和分析 Azure 資源遙測。 藉由主動識別問題,此服務可最大化效能和可靠性。
Microsoft成本管理為 Azure 工作負載提供財務治理服務。
元件
解決方案會使用下列元件。
核心元件
Azure Databricks 是使用 Spark 叢集來處理大型數據流的數據分析平臺。 它會清理並轉換非結構化數據、將其與結構化數據結合,並可定型和部署機器學習模型。 在此架構中,Databricks 可作為數據擷取、處理及服務的中央工具,提供統一的環境來管理整個數據生命週期。
Azure Databricks SQL 倉儲 是計算資源,可讓您查詢及探索 Databricks 上的數據。 在此架構中,您可以利用 SQL 端點直接從 Power BI 連線到您的數據。
Azure Databricks Delta Live Tables 是一種宣告式架構,可建置可靠、可維護且可測試的數據處理管線。 在此架構中,Delta Live Tables 可協助您定義轉換,以對您的數據執行,以及管理工作協調流程、叢集管理、監視、數據品質,以及 Databricks 內的錯誤處理。
Microsoft Fabric 是一種端對端分析和數據平臺,專為需要統一解決方案的企業而設計。 此平臺提供數據工程、Data Factory、數據科學、Real-Time 分析、數據倉儲和資料庫等服務。 在此架構中,我們會將 Unity 目錄數據表鏡像到 Fabric,並在 Power BI 中使用 Direct Lake 以提升效能。
Microsoft Fabric 中的 Data Factory 可讓您使用現代化數據整合體驗,從 Fabric 中的一組豐富數據源擷取、準備及轉換數據。 在此架構中,我們將內建連接器運用到數個數據源,以快速擷取至 ADLS 或 OneLake,Databricks 稍後會擷取及進一步轉換批次數據。
事件中樞 是完全受控的巨量數據串流平臺。 身為平臺即服務 (PaaS),它提供事件擷取功能。 在此架構中,事件中樞會用於串流數據,Databricks 可以使用Spark串流或差異實時數據表來連線及處理這些數據。
Data Lake Storage Gen2 是可調整且安全的 Data Lake,可進行高效能分析。 它會處理數 PB 的數據,並支援數百 GB 的輸送量。 ADLS 可以儲存結構化、半結構化和非結構化數據。 在此架構中,我們使用ADLS來儲存批次和串流數據。
機器學習 是雲端式環境,可協助您建置、部署及管理預測性分析解決方案。 透過這些模型,您可以預測行為、結果和趨勢。 在此架構中,AML 可以利用 Databricks 轉換的數據來定型和推斷模型。
AKS 是高可用性、安全且完全受控的 Kubernetes 服務。 AKS 可讓您輕鬆地部署和管理容器化應用程式。 在此架構中,會利用 AKS 在容器化環境中裝載機器學習模型,以進行可調整的推斷。
Delta Lake 是使用開放式檔格式的儲存層。 此層會在雲端記憶體之上執行,例如 Data Lake Storage Gen2。 Delta Lake 支援用於更新、刪除和合併數據的數據版本設定、復原和交易。 在此架構中,Delta 是用來從 ADLS 寫入和讀取數據的主要文件格式。
MLflow 是一個開放原始碼平臺,用於管理機器學習生命週期。 其元件會在定型和執行期間監視機器學習模型。 在此架構中,類似於 AML,您可以使用 Databricks 中的 MLflow 來管理 ML 生命週期,包括使用您剛在 Databricks 內轉換的 Unity 目錄數據進行定型和推斷。
報告及控管元件
Databricks Unity 目錄 提供跨 Azure Databricks 工作區的集中式訪問控制、稽核、譜系和數據探索功能。 在此架構中,Unity 目錄可作為 Databricks 內的主要工具,以管理及保護數據存取。
Power BI 是軟體服務和應用程式的集合。 這些服務會建立和共享報表,以連接和可視化不相關的數據源。 Power BI 與 Azure Databricks 一起,可以提供根本原因判斷和原始數據分析。 在此架構中,Power BI 可用來建立儀錶板和報表,以深入瞭解 Databricks 和 Fabric 所處理的數據。
Microsoft Purview 會管理內部部署、多雲端和軟體即服務 (SaaS) 數據。 此治理服務會維護數據橫向對應。 功能包括自動化數據探索、敏感數據分類和數據譜系。 在此架構中,Purview 可用來掃描和追蹤 Unity 目錄、網狀架構、Power BI 和 ADLS 中內嵌的數據。
Azure DevOps 是 DevOps 協調流程平臺。 此 SaaS 提供建置、部署及共同作業應用程式的工具和環境。 在此架構中,Azure DevOps 用於自動化 Azure 基礎結構的部署。 此外,您可以利用 GitHub 進行 Databricks 程式代碼的自動化和版本控制,以便進行更好的共同作業、追蹤變更,以及與 CI/CD 管線整合。
Azure 金鑰保存庫儲存和控制對權杖、密碼和 API 金鑰等秘密的存取。 Key Vault 也建立和控制加密金鑰,並管理安全性憑證。 在此原型中,AKV 用來儲存來自 ADLS 的 SAS 金鑰。 然後,這些金鑰會用於 Databricks 和其他服務以進行驗證。
Microsoft Entra ID 提供雲端式身分識別和存取管理服務。 這些功能提供讓使用者登入和存取資源的方式。 在此原型中,Entra Id 可用來驗證和授權 Azure 中的使用者和服務。
SCIM 可讓您使用 Microsoft Entra ID 設定布建至 Azure Databricks 帳戶。 在此架構中,它用來管理存取 Databricks 工作區的使用者。
Azure 監視器 會收集和分析環境和 Azure 資源上的數據。 此數據報括應用程式遙測,例如效能計量和活動記錄。 在此架構中,Azure 監視器可用來監視 Databricks 和 Azure Machine Learning 中計算資源的健康情況,以及其他將記錄傳送至 Azure 監視器的元件。
Microsoft成本管理 會管理雲端支出。 此服務會使用預算和建議來組織費用,並示範如何降低成本。 在此架構中,Microsoft成本管理用於監視及控制整個解決方案的成本。
案例詳細資料
新式資料架構符合下列準則:
- 統一數據、分析和 AI 工作負載。
- 在任何規模上有效率且可靠地執行。
- 透過分析儀錶板、操作報告或進階分析提供深入解析。
此解決方案概述達成這些目標的新式數據架構。 Azure Databricks 會形成解決方案的核心。 此平臺可與其他服務順暢地運作。 這些服務會一起提供這些質量的解決方案:
- 簡單:整合分析、數據科學和機器學習可簡化數據架構。
- Open:解決方案支援開放原始碼程式代碼、開放標準和開放架構。 它也適用於熱門的整合開發環境 (IDE)、連結庫和程式設計語言。 透過原生連接器和 API,解決方案也適用於各種其他服務。
- 共同作業:數據工程師、數據科學家和分析師會與此解決方案合作。 他們可以使用共同作業筆記本、IDE、儀錶板和其他工具來存取和分析一般基礎數據。
潛在使用案例
瑞士再集團為其財產和傷亡再保險部門建造的系統激發了這一解決方案。 除了保險業之外,任何使用巨量數據或機器學習的領域也可以受益於此解決方案。 範例包含:
- 能源部門
- 零售和電子商務
- 銀行與金融
- 醫學和醫療保健
下一步
- 教學課程:在 Databricks 中建置端對端數據管線
- 教學課程:執行您的第一個 Delta 實時數據表
相關資源
若要瞭解相關解決方案,請參閱此資訊: