在 Azure 中用於雲端規模分析的多個數據區域
此參考架構適用於已實作雲端規模分析基本版本的組織,且現在已準備好裝載新的業務單位,以協助將其分析作業現代化。 這個更複雜的案例使用多個登陸區域、數據應用程式和數據產品。
Apache Hive 和 Hive 標誌是美國和/或其他國家/地區的 Apache Software Foundation 註冊商標或商標。 Apache Software Foundation對這些標記的使用並不表示認可。
問題陳述
在此範例中虛構的公司 Relecloud 是私人雲端提供者,可提供共用運算和記憶體資源給全球組織。 雖然 Relecloud 提供計算資源,但不想使用自己的內部作業來限制平臺。 因此,他們依賴Microsoft Azure 以符合其內部運算需求。
作業群組中的數據分析師會使用雲端服務的遙測數據,以瞭解其客戶如何使用平臺。 計費群組中個別的分析師小組會研究發票數據,以取得哪些服務產生最多營收的見解。
上一季,營運小組藉由將其遷移至 Azure,將分析平台現代化。 實作雲端規模分析的其中一個目標是將調整平臺和新增組織工作負載的潛力最大化。
目前,計費群組已超越其目前的分析解決方案。 要分析的發票數量太多,超過了其內部部署伺服器的處理能力。 小組決定遵循作業群組的負責人,並在 Azure 中將其數據分析平台現代化。
計費群組中的分析師具有與營運群組中分析師不同的技能。 計費分析師不希望被限制使用與營運部門相同的工具。 計費群組位於組織的不同部分,希望彈性地實作符合其需求的原則和程式。
架構解決方案
Relecloud 透過為計費群組新增一個登陸區域來擴展其分析平臺。 此登陸區域提供計費群組的虛擬工作區,以實作符合其業務需求的分析解決方案。 藉由讓登陸區域與組織的其他資源分開,計費群組可以實作自己的存取原則,並考慮其服務的成本。
下圖並不代表所有 Azure 服務。 此圖表已簡化,以醒目提示在架構內組織資源的核心概念。
資料管理著陸區
雲端規模分析實作的關鍵需求是數據管理登陸區域。 此訂用帳戶包含跨所有登陸區域共用的資源,包括防火牆或私人 DNS 區域等共用網路元件。 它也包含數據和雲端治理的資源。 Microsoft Purview 和 Databricks Unity Catalog 已部署為在租用戶層級的服務。
Relecloud 會在部署作業群組的數據分析解決方案時,建立數據管理登陸區域。 當計費群組加入平臺時,他們會使用相同的數據管理登陸區域,與作業群組共用一般資源。
作業數據登陸區域
作業群組在其數據登陸區域中有下列解決方案。
作業數據應用程式
小組已建置 來源對齊的數據應用程式,以在 Azure Databricks 中使用 Apache Spark 作業來內嵌服務遙測數據,並將其儲存在 Azure Data Lake Storage 帳戶中。
此程式會從來源系統複製資料 as-is,但不會轉換數據。 分析師可以在分析平臺中使用複製的數據,而不需要多載來源系統。 作業小組會使用共用 內嵌 & 處理 資源群組中的 Databricks 工作區,而不是為此數據應用程式建立專用部署。
Relecloud 客戶可以建立雲端帳戶來管理其私人雲端中的資源和計費。 每個客戶都可以有多個帳戶。 分析小組建置數據應用程式以匯入雲端帳戶數據。 由於資料的量和頻率遠低於遙測資料,因此團隊不需要使用 Spark 工作。 相反地,他們建立了 Azure Data Factory 管線來複製數據。
適用於 MySQL 的 Azure 資料庫可作為 Hive 中繼存放區,而 Azure SQL Database 則是 Azure Data Factory 中繼存放區。
作業數據產品
Relecloud 分析師藉由建立新的與消費者對齊的數據應用程式,從與來源對齊的數據應用程式中獲得數據價值。 其中一個以消費者為導向的數據應用程式是 雲端服務推薦模型。 Relecloud 數據科學家使用 Azure Machine Learning 來建置模型,以查看雲端帳戶取用的服務,並建議可能有用的相關服務。 小組會將此模型部署到在登陸區域中執行的 Azure Kubernetes Service (AKS) 叢集,並由 Azure Machine Learning 管理。 在雲端規模分析外部執行的應用程式可以呼叫 AKS 端點以取得建議。
計費小組建立登陸區域之後,營運小組會建立其管理小組要求的新數據產品。 管理小組想要知道 雲端服務推薦 數據應用程式所產生的收入。 新的 推薦營收 數據產品使用 Azure Synapse Analytics,將來自 雲端服務推薦 和 服務收入 的數據合併為一個新的數據產品。 商務分析師可以連線到 Azure Synapse 與 Microsoft Power BI,以尋找並報告此新數據產品的深入解析。
計費數據登陸區域
計費群組使用內部部署系統來提供分析功能,但隨著數據量的增長,公司更依賴其工作,系統無法跟上步伐。 此群組藉由移至雲端將其平台現代化。
計費群組不會與作業群組共用登陸區域,但會取得自己的登陸區域,讓他們能夠自由地建置最符合其需求的平臺。 新的著陸區域透過虛擬網路對等連接到數據管理著陸區域及所有其他數據著陸區域。 此機制可讓數據透過 Azure 內部網路安全地共用。
計費數據應用程式
若要將數據從現有系統登陸到分析平臺,計費群組會建置兩個數據應用程式。 第一個應用程式會擷取客戶數據,包括客戶的完整清單和所有相關數據,例如客戶位址、位置和銷售人員指派。 第二個應用程式會匯入公司的發票歷程記錄,其中包含客戶的所有帳單費用和相關付款數據。
這兩個應用程式都是由共用 Azure Synapse 工作區中的管線所提供。 每個應用程式都有專屬的運算資源池,以便於成本核算和維護安全性界限。 由於應用程式可以使用共用資源完全實作,因此計費群組不需要為這些數據應用程式建立部署。
計費數據產品
計費分析師會建立稱為「依服務 營收」的新數據產品, 分析每個雲端服務為 Relecloud 產生的營收。 本產品依賴 發票 匯入的數據。 產品也會連線到作業登陸區域,並讀取服務使用量數據。 如同數據應用程式,數據產品也依賴共用的 Azure Synapse 工作區。
後續步驟
繼續進行 Lamna Healthcare 案例,以安全地在 Azure中進行雲端規模分析。
如需詳細資訊,請參閱下列文章: