解決方案構想
本文說明解決方案概念。 您的雲端架構設計人員可以使用本指南,協助可視化此架構的一般實作的主要元件。 使用本文作為起點,設計符合您工作負載特定需求的架構良好解決方案。
本文說明中小企業如何結合 Azure Databricks 中的現有投資與完全受控的軟體即服務(SaaS)數據平臺,例如 Microsoft Fabric。 SaaS 數據平臺是端對端數據分析解決方案,可輕鬆地與 Azure Machine Learning、Azure AI 服務、Power Platform、Microsoft Dynamics 365 和其他Microsoft技術等工具整合。
簡化的架構
下載此架構的 Visio 檔案。
Azure Databricks 與 Microsoft Fabric 之間的互操作性提供強固的解決方案,可將數據片段降到最低,同時增強分析功能。
Microsoft Fabric 提供開放且受控的數據湖,稱為 OneLake,作為基礎 SaaS 記憶體。 OneLake 使用 Delta Parquet 格式,其格式與 Azure Databricks 所使用的格式相同。 若要從 OneLake 存取 Azure Databricks 數據,您可以使用 Fabric 中的 OneLake 快捷方式,或 在 Fabric 中鏡像 Azure Databricks Unity 目錄。 這項整合可讓您在 OneLake 之上,使用具有再生 AI 的 Azure Databricks 分析系統來增強。
您也可以在 OneLake 的 Azure Databricks 數據上使用 Power BI 中的直接湖模式。 直接湖模式可簡化服務層,並改善報表效能。 OneLake 支援 Azure Data Lake Storage 的 API,並以 Delta Parquet 格式儲存所有表格式數據。
因此,Azure Databricks 筆記本可以使用 OneLake 端點來存取儲存的數據。 體驗與透過 Microsoft Fabric 倉儲存取數據相同。 這項整合可讓您使用 Fabric 或 Azure Databricks,而不需要重塑您的數據。
建築
下載此架構的 Visio 檔案。
數據流
Azure Data Factory: 使用現有的 Azure Data Factory 管線,從來源系統內嵌結構化和非結構化數據,並將其放在現有的 Data Lake 中。
Microsoft Dynamics 365: 您可以使用 Microsoft Dynamics 365 數據源,使用 Azure Synapse Link 或 Microsoft Fabric Link,在增強數據集上建置集中式 BI 儀錶板。 將融合、已處理的數據帶回 dynamics 365 和 Power BI Microsoft,以進行進一步分析。
串流資料擷取: 串流數據可以透過 Azure 事件中樞或 Azure IoT 中樞內嵌,視用來傳送這些訊息的通訊協定而定。
冷路徑: 您可以使用 Azure Databricks 將串流數據帶入集中式數據湖,以進一步分析、儲存和報告。 然後,此數據可以與其他數據源整合,以進行批次分析。
經常性路徑: 串流數據可以即時分析,而即時儀錶板可透過網狀架構 Real-Time 智慧Microsoft建立。
Azure Databricks: 現有的 Azure Databricks Notebook 可用來執行一般的數據清理、統一和分析。 請考慮使用獎章架構,例如:
銅級,其保存原始數據。
Silver,其中包含已清除、篩選的數據。
Gold,其會儲存適用於商務分析的匯總數據。
黃金數據或數據倉儲: 針對黃金數據或數據倉儲,繼續使用 Azure Databricks SQL,或在 Microsoft Fabric 中建立 Azure Databricks Unity 目錄的鏡像。 使用針對所有 Fabric Lakehouse 自動建立的 Power BI 語意模型,輕鬆地根據 Fabric Lakehouse 中數據的無伺服器分析建立儀錶板,而不需要任何設定。 如果分析需求需要更快的計算,網狀架構數據倉儲也可以作為黃金層。
用於治理、共同作業、安全性、效能和成本監視的工具包括:
探索與控管
Microsoft Purview 提供跨數據資產的數據探索服務、敏感數據分類和治理深入解析。
Unity 目錄提供 Azure Databricks 工作區的集中式訪問控制、稽核、譜系和數據探索功能。
Azure DevOps 提供持續整合和持續部署和其他整合版本控制功能。
Azure Key Vault 會管理秘密、金鑰和憑證。
Microsoft Entra ID 為 Azure Databricks 使用者提供單一登錄。 Azure Databricks 支援使用 Microsoft Entra ID 的自動化使用者布建,以:
建立新的使用者。
將存取層級指派給每個使用者。
拿掉使用者並拒絕他們存取權。
Azure 監視器會收集和分析 Azure 資源遙測。 此服務透過主動識別問題,將效能和可靠性最大化。
Microsoft成本管理為 Azure 工作負載提供財務治理服務。
元件
Data Lake Storage 是專為結構化和非結構化數據而設計的可調整數據記憶體服務。 在此架構中,Data Lake Storage 可作為 Delta Lake 的基礎基礎結構。 它是原始和已處理數據的主要儲存層,可有效擷取、儲存和擷取分析和機器學習工作負載。
Azure Data Factory 是雲端式數據整合服務,可協調及自動化數據移動和轉換。 Azure Data Factory 可用來建立、排程及協調數據管線,以在各種數據存放區和服務之間移動和轉換數據。 它有助於確保順暢的數據流和整合。
事件中樞 是一項實時數據擷取服務,每秒可處理來自任何來源的數百萬個事件。 在此架構中,事件中樞會從各種來源擷取和串流大量數據,以啟用即時分析和事件驅動處理。
Azure IoT 中樞 是受控服務,可改善 IoT 裝置與雲端之間的安全性和可靠通訊。 Azure IoT 中樞可協助擷取、處理和分析來自IoT裝置的遙測數據,以提供即時見解並啟用遠程監視。
Microsoft Dataverse 是一個可調整的數據平臺,組織可用來協助安全地儲存和管理商務應用程式使用的數據。 在此架構中,它會參考為潛在的數據源。
Azure Synapse Link Azure Synapse Analytics 或 Data Lake Storage 連線 Dynamics 應用程式。 在此架構中,它會用來近乎即時地將數據從 Dataverse 複製到 Data Lake Storage。
Microsoft Fabric Link 將 Dynamics 應用程式連線至 Microsoft Fabric。 在此架構中,它會用來近乎即時地將數據從 Dataverse 複寫至 Microsoft Fabric。
Azure Databricks 是以 Apache Spark 為基礎的分析平臺。 Azure Databricks 用於巨量數據處理、機器學習和數據工程工作。 此平臺為數據科學家和工程師提供共同作業工作區。
Delta Lake 是開放原始碼儲存層,可將 ACID 交易帶入 Apache Spark 和巨量數據工作負載。 Delta Lake 可用來提供這項功能給 Data Lake 記憶體。
Azure Databricks SQL 是以 SQL 為基礎的分析服務,可讓使用者對儲存在 Azure Databricks 中的數據執行 SQL 查詢。 在此架構中,Azure Databricks SQL 提供功能強大的 SQL 介面來查詢和分析數據,以啟用互動式和臨機操作分析。
AI 和 Machine Learning 包含一系列技術和服務,可讓您開發、部署和管理機器學習模型。 AI 和 Machine Learning 服務可用來建置、定型及部署預測模型。 這項功能可啟用數據驅動決策。
Unity 目錄 是一種數據控管解決方案,可跨 Databricks 工作區提供集中式訪問控制、稽核、譜系和數據探索功能。 Unity 目錄藉由提供精細的訪問控制、稽核和數據譜系追蹤,協助確保數據控管和安全性。
Medallion Lakehouse 架構 是一種數據架構模式,會將數據組織成銅級、銀層和金層,以有效率地進行處理和分析。 此架構模式是在這裡使用 Data Lake Storage、Delta Lake 和 Azure Databricks 來實作的,可調整且有效率的數據處理和分析。
Microsoft Fabric 是整合各種數據服務和工具的完整數據平臺,可提供順暢的數據管理和分析體驗。 Microsoft Fabric 會連線並整合來自多個來源的數據,讓整個組織的數據分析和深入解析全面。
Real-Time Intelligence 是數據處理功能,可讓組織即時內嵌、處理及分析數據。 Real-Time Intelligence 會處理來自各種來源的串流數據。 其提供即時深入解析,並根據數據模式啟用自動化動作。
OneLake 快捷方式 建立 OneLake 與另一個數據源之間的就地連結。 OneLake 快捷方式可用來簡化數據存取和管理,以提供整個組織數據的統一檢視。
Power BI 是一項商務分析服務,可提供互動式視覺效果和商業智慧功能。 它有一個簡單的介面,讓使用者建立自己的互動式報表和儀錶板。 這些工具可啟用商務用戶的數據視覺效果和深入解析。
Microsoft Purview 是一種統一的數據控管服務,可協助組織跨各種來源管理及管理其數據。 Microsoft Purview 提供數據編錄、譜系追蹤和數據控管功能。 這些功能有助於確保整個組織的數據合規性和安全性。
- 連線至和管理 Azure Databricks Unity 目錄:您可以將 Unity 目錄整合到 Purview,以從 Purview 存取 Unity 目錄元數據。
Microsoft Entra ID 是雲端式身分識別和存取管理解決方案,可協助確保安全登入,以及存取 Microsoft 365、Azure 和其他 SaaS 應用程式等資源。 在此架構中,Microsoft Entra ID 為 Azure 資源提供安全的身分識別和存取管理。 此功能可啟用安全登入、管理使用者身分識別,並協助確保已授權存取數據和資源。
Microsoft成本管理 是一套 FinOps 工具,組織可用來分析、監視及優化Microsoft雲端成本。 這些工具提供此架構中 Azure 資源的財務控管。
Key Vault 是一項雲端服務,可儲存和管理秘密,例如 API 金鑰、密碼、憑證和密碼編譯密鑰。 此服務可讓使用者和應用程式安全地存取這些秘密。 當您將金鑰和秘密儲存在 Key Vault 中時,您可以在單一位置加以管理。 在此架構中,Azure Databricks 可以從 Key Vault 擷取秘密,以驗證及存取 Data Lake Storage。 此程式有助於確保這些服務之間的安全且順暢的整合。
Azure 監視器 是一項完整的監視服務,可為應用程式、基礎結構和網路提供完整的堆疊可觀察性。 Azure 監視器可讓使用者從其 Azure 和內部部署環境收集、分析及處理遙測數據,以主動識別問題並最大化效能和可靠性。
Azure DevOps 是一組開發工具,可支援共同作業文化特性和簡化的程式。 這些工具可讓開發人員、專案經理和參與者更有效率地開發軟體。 Azure DevOps 提供整合式功能,例如 Azure Boards、Azure Repos、Azure Pipelines、Azure Test Plans 和 Azure Artifacts。 您可以透過網頁瀏覽器或整合開發環境用戶端存取這些功能。
GitHub 是雲端式 Git 存放庫裝載服務,可簡化開發人員的版本控制和共同作業。 它可讓個人和小組使用 Git 來儲存和管理其程式代碼、追蹤變更,以及共同作業。 方便使用的 GitHub 介面可讓所有技能層級的編碼者存取 Git。 您可以將 Azure DevOps 和 GitHub 一起使用,以實作 DevOps 做法。 這些做法會在 Azure Data Factory、Azure Databricks 和 Microsoft Fabric 的工作負載開發和部署管線中強制執行自動化和合規性。
選擇
若要建立獨立的Microsoft網狀架構環境,請參閱 Microsoft Fabric上的
Greenfield Lakehouse 。 若要將內部部署 SQL 分析環境移轉至 Microsoft Fabric,請參閱 小型中型企業的新式數據倉儲。
此架構中的服務替代方案
批次擷取
- 您可以選擇性地使用 Fabric 數據管線 進行數據整合,而不是使用 Data Factory 管線。 選擇取決於幾個因素。 如需詳細資訊,請參閱 Microsoft Fabric中的
從 Azure Data Factory 取得至 Data Factory。
- 您可以選擇性地使用 Fabric 數據管線 進行數據整合,而不是使用 Data Factory 管線。 選擇取決於幾個因素。 如需詳細資訊,請參閱 Microsoft Fabric中的
Microsoft Dynamics 365 擷取
如果您使用 Azure Data Lake 作為 Data Lake 記憶體,而且想要內嵌 Dataverse 數據,請使用 Azure Synapse Link for Dataverse 搭配 Azure Data Lake。 如需 Dynamics Finance and Operations,請參閱 dataverse
FnO Azure Synapse Link。 如果您使用 Microsoft Fabric Lakehouse 作為 Data Lake storage,請參閱 Fabric Link。
串流數據擷取
- Azure IoT 與事件中樞之間的決策取決於串流數據的來源、是否需要複製和雙向通訊與報告裝置,以及所需的通訊協定。 如需詳細資訊,請參閱 比較IoT中樞和事件中樞。
Lakehouse
- Microsoft Fabric Lakehouse 是統一的數據架構平臺,可用來以開放格式來管理和分析結構化和非結構化數據,主要使用 Delta Parquet 檔案。 它支援兩種記憶體類型。 這些記憶體類型是受控數據表,例如 CSV、Parquet 或 Delta,以及 Unmanaged 檔案。 系統會自動辨識受控數據表。 非受控檔案需要明確的數據表建立。 此平臺會透過Spark或SQL端點啟用資料轉換,並與其他Microsoft網狀架構元件緊密整合。 這種無縫整合可讓數據共享不重複。 此概念與分析工作負載中使用的通用獎章架構一致。 如需詳細資訊,請參閱 Microsoft Fabric中的
Lakehouse 。
- Microsoft Fabric Lakehouse 是統一的數據架構平臺,可用來以開放格式來管理和分析結構化和非結構化數據,主要使用 Delta Parquet 檔案。 它支援兩種記憶體類型。 這些記憶體類型是受控數據表,例如 CSV、Parquet 或 Delta,以及 Unmanaged 檔案。 系統會自動辨識受控數據表。 非受控檔案需要明確的數據表建立。 此平臺會透過Spark或SQL端點啟用資料轉換,並與其他Microsoft網狀架構元件緊密整合。 這種無縫整合可讓數據共享不重複。 此概念與分析工作負載中使用的通用獎章架構一致。 如需詳細資訊,請參閱 Microsoft Fabric中的
即時分析
Azure Databricks
- 如果您有現有的 Azure Databricks 解決方案,您可能想要繼續使用結構化串流進行即時分析。 如需詳細資訊,請參閱 Databricks 上的串流。
Microsoft Fabric
如果您過去曾使用其他 Azure 服務進行即時分析,或沒有現有的即時分析解決方案,請參閱 Fabric 即時智慧與 Azure 串流解決方案。
Microsoft Fabric 結構化串流會使用 Spark 結構化串流,以連續附加的數據表處理和內嵌實時數據流。 結構化串流支援各種檔案來源,例如 CSV、JSON、ORC、Parquet,以及 Kafka 和事件中樞等傳訊服務。 此方法可確保可調整且容錯的串流處理,以優化高輸送量的生產環境。 如需詳細資訊,請參閱 Microsoft Fabric Spark 結構化串流。
數據工程
- 使用 Microsoft Fabric 或 Azure Databricks 來撰寫 Spark 筆記本。 如需詳細資訊,請參閱 如何使用 Microsoft Fabric 筆記本。 若要瞭解 Fabric 筆記本如何與 Azure Synapse Spark 提供的內容進行比較,請參閱 比較網狀架構數據工程和 Azure Synapse Spark。 如需 Azure Databricks 筆記本的詳細資訊,請參閱 Databricks 筆記本簡介。
數據倉儲或金層
- 您可以使用 Microsoft Fabric 或 Azure Databricks 來建立以 SQL 為基礎的倉儲或金層。 如需如何在 Microsoft Fabric 內選擇數據倉儲或黃金層儲存解決方案的決策指南,請參閱 Microsoft網狀架構決策指南:選擇數據存放區。 如需 Azure Databricks 中 SQL 倉儲類型的詳細資訊,請參閱
SQL 倉儲類型。
- 您可以使用 Microsoft Fabric 或 Azure Databricks 來建立以 SQL 為基礎的倉儲或金層。 如需如何在 Microsoft Fabric 內選擇數據倉儲或黃金層儲存解決方案的決策指南,請參閱 Microsoft網狀架構決策指南:選擇數據存放區。 如需 Azure Databricks 中 SQL 倉儲類型的詳細資訊,請參閱
數據科學
使用 Microsoft Fabric 或 Azure Databricks 來取得數據科學功能。 如需 Microsoft Fabric 數據科學供應專案的詳細資訊,請參閱 Microsoft Fabric 中的數據科學是什麼?。 如需 Azure Databricks 供應專案的詳細資訊,請參閱 Databricks 上的 AI 和機器學習。
Microsoft Fabric 數據科學與 Machine Learning 不同。 Machine Learning 提供管理工作流程和部署機器學習模型的完整解決方案。 Microsoft Fabric 數據科學是針對分析和報告案例量身打造的。
Power BI
與 Power BI 整合的 Azure Databricks 可讓您順暢地處理和視覺效果。 如需詳細資訊,請參閱 將 Power BI 連線至 Azure Databricks。
藉由鏡像 Fabric 中的 Azure Databricks Unity 目錄,您可以直接從網狀架構工作負載存取 Azure Databricks Unity 目錄所管理的數據。 如需詳細資訊,請參閱 鏡像 Azure Databricks Unity 目錄。
使用 Delta Lake 從 Data Lake Storage 建立快捷方式,以建立Microsoft Fabric One Lake。 如需詳細資訊,請參閱 整合 Databricks Unity 目錄與 OneLake。 您可以使用 Direct Lake 模式從 Power BI 查詢此數據,而不將數據複製到 Power BI 服務。 如需詳細資訊,請參閱 Direct Lake Mode。
案例詳細數據
具有現有 Azure Databricks 環境的中小型企業,以及湖屋架構選擇性地受益於此模式。 他們目前使用 Azure 擷取、轉換、載入工具,例如 Azure Data Factory,並在 Power BI 中提供報表。 不過,它們也可能有多個數據源,這些數據源在相同的 Data Lake 上使用不同的專屬數據格式,這會導致數據重複,並擔心廠商鎖定。 這種情況可能會使數據管理複雜化,並增加對特定廠商的相依性。 它們可能也需要 up-to日期和近乎即時的報告來進行決策,並有興趣在整個環境中採用 AI 工具。
Microsoft Fabric 是開放、統一且受控的 SaaS 基礎,可用來:
使用 OneLake 在單一位置儲存、管理及分析數據,而不必擔心廠商鎖定。
透過Microsoft 365 個應用程式的整合,更快速地創新。
透過Power BI直接湖模式的優點取得快速深入解析。
從每個Microsoft網狀架構體驗中的Copilots獲益。
藉由在單一基礎上開發 AI 模型來加速分析。
在不移動的情況下保留數據,這可減少數據科學家需要提供價值的時間。
貢獻
本文由 Microsoft 維護。 它最初是由下列參與者所撰寫。
主要作者:
- Bonita Rui |雲端解決方案架構師
- Naren Jogendran |雲端解決方案架構師
若要查看非公用LinkedIn配置檔,請登入LinkedIn。
後續步驟
- 數據工程師的學習路徑
- Microsoft Fabric - 開始使用 MSLearn 路徑
- Microsoft Fabric - MSLearn 模組
- 建立 Data Lake Storage 的記憶體帳戶
- 事件中樞快速入門 - 使用 Azure 入口網站建立事件中樞
- 什麼是獎牌湖屋建築?
- Microsoft Fabric 中的湖屋是什麼?