資料著陸區域
數據著陸區域會透過虛擬網路對等連接或私人端點連線到 數據管理著陸區域。 每個數據登陸區域都會被視為與 Azure 登陸區域架構相關的 登陸區域。
重要
布建數據登陸區域之前,請確定DevOps和 CI/CD作業模型已就緒,並部署數據管理登陸區域。
每個數據著陸區含有數個層級,以促進其內部的服務數據整合及數據應用程式的靈活性。 您可以使用一組標準服務來部署新的數據著陸區域,使其能夠開始匯入和分析數據。
與數據登陸區域相關聯的一般 Azure 訂用帳戶具有下列結構:
層 | 必填 | 資源群組 |
---|---|---|
平台服務層 | 是的 | |
核心服務 | 是的 | |
資料應用 | 可選的 |
|
報表和視覺效果 | 可選的 |
注意
雖然核心服務層被標示為必要,但本文中所包含的資源群組和服務並非都必須用於您的資料著陸區。
數據登陸區域架構
數據登陸區域架構說明圖層、其資源群組,以及每個資源群組所包含的服務。 此架構提供與資料登陸區相關聯的所有群組和角色的概覽,以及其對管理與資料平面的存取範圍。 此架構也會說明每個層如何與作業模型責任保持一致。
提示
在部署數據登陸區域之前,請確定您 考慮您想要部署的初始數據登陸區域數目。
平台服務
平臺服務層包括在雲端規模分析的範疇內啟用資料登錄區的連接性和可觀察性所需的服務。 下表列出建議的資源群組。
資源群組 | 必填 | 描述 |
---|---|---|
network-rg |
是的 | 聯網 |
security-rg |
是的 | 安全性和監視 |
聯網
網路資源群組包含連線服務,包括 Azure 虛擬網路、網路安全組 (NSG),以及 路由表。 所有這些服務都會部署到單一資源群組。
數據登陸區域的虛擬網路 會自動與數據管理登陸區域的虛擬網路 和 連線訂用帳戶的虛擬網路對等互連。
安全性和監視
安全性和監視資源群組包括 Azure 監視器 和 Microsoft Defender for Cloud 來收集服務遙測、定義監視準則和警示,以及將原則和掃描套用至服務。
核心服務
核心服務層級包含在雲端規模分析的範疇內啟用資料落地區域所需的基礎服務。 下表列出資源群組,這些資源群組會在您所部署的每個數據登陸區域中提供標準可用的服務套件。
資源群組 | 必填 | 描述 |
---|---|---|
storage-rg |
是的 | Data Lake 服務 |
runtimes-rg |
是的 | 共用整合運行時間 |
mgmt-rg |
是的 | CI/CD 代理程式 |
external-data-rg |
是的 | 外部數據記憶體 |
data-ingestion-rg |
選擇性 | 共用數據擷取服務 |
shared-applications-rg |
可選的 | 共用應用程式 (Synapse 或 Databricks) |
存儲
如圖所示,三個 Azure Data Lake Storage Gen2 帳戶已經在單一的資料湖服務資源群組中布建。 在不同階段轉換的數據會儲存在數據登陸區域的其中一個數據湖中。 數據可供分析、數據科學和視覺效果小組取用。
數據湖層會根據技術和廠商使用不同的術語。 下表提供如何套用詞彙以進行雲端規模分析的指引:
雲端規模分析 | Delta Lake | 其他條款 | 描述 |
---|---|---|---|
原始 | 青銅 | 登陸與一致性 | 導入數據表 |
豐富 | 銀 | 標準化區域 | 精簡數據表。 從記錄系統儲存完整實體和可供使用的記錄集。 |
精選 | 金 | 產品區域 | 功能或匯總數據表。 應用程式、小組和使用者用來取用數據產品的主要區域。 |
發展 | -- | 開發區 | 數據工程師和科學家的位置,包括分析沙盒和產品開發區。 |
注意
在上圖中,每個數據登陸區域都有三個 Data Lake Storage 帳戶。 不過,根據您的需求,您可以選擇將原始、豐富和策劃的層合併到一個儲存帳戶,並維護另一個稱為「工作區」的儲存帳戶,讓資料使用者引進其他有用的資料產品。
如需詳細資訊,請參閱:
- Azure Data Lake Storage 的雲端規模分析概觀
- 數據標準化
- 為每個數據登陸區域布建 Azure Data Lake Storage Gen2 帳戶
- Azure Data Lake Storage 的重要考量
- Azure Data Lake Storage 中的訪問控制和數據湖組態
共用整合執行時間
Azure Data Factory 和 Azure Synapse Analytics 管線會使用 Integration Runtime (IR)安全地存取對等互連或隔離網路中的資料來源。 共用的 IR 應該部署至共用整合執行階段資源群組中的虛擬機器(或 Azure 虛擬機器擴展集)。
若要開啟共享資源群組:
- 在數據登陸區域的共用整合資源群組中,建立至少一個 Azure Data Factory。 只用於連結共用的自設整合執行時間,而不是用於資料管線。
- 在虛擬機上建立及設定自行代管整合執行個體。
- 將自建 Integration Runtime 與資料接收區域中的 Azure 資料工廠產生關聯。
- 使用 PowerShell 腳本 定期更新自架整合執行個體。
注意
此部署描述具有自我代管的整合執行階段的單一虛擬機部署。 您可以將自我代管的整合執行個體與內部部署或 Azure 中的多部虛擬機器建立關聯。 這些機器稱為節點,而且您最多可以有四個與自我管理整合執行環境相關聯的節點。 擁有多個節點的優點包括:
- 自我托管整合執行環境的高可用性,使其不再是資料應用程式或雲端資料整合協作流程中的單一故障點。
- 改善內部部署與雲端數據服務之間數據移動期間的效能和輸送量。 取得 效能比較的詳細資訊,。
您可以從 下載中心安裝自行裝載的整合執行環境,以將多個節點互相關聯。 然後,使用從 New-AzDataFactoryV2IntegrationRuntimeKey cmdlet 取得的任一驗證密鑰來註冊它,如 教程中所述。
Azure Data Factory 高可用性和延展性中會詳細說明進一步的資訊。
重要
盡可能將共用整合執行環境部署在接近數據源的位置。 您可以在數據登陸區域、第三方雲端或私人雲端中部署整合運行時間,前提是虛擬機能夠連線到所需的數據源。
管理
CI/CD 代理程式會在虛擬機上執行,並協助從原始程式碼存放庫部署成品,包括數據應用程式和數據登陸區域的變更。
如需詳細資訊,請參閱 Azure Pipeline 代理程式。
外部記憶體
合作夥伴數據發行者需要將數據整合到您的平臺中,以便數據應用團隊可以將其提取到數據湖中。 您也可以擁有內部或外部的資料來源,這些資料來源無法支援在其他資料登陸區域強制執行的連線或驗證要求。 建議使用個別的儲存帳戶來接收資料,然後使用共用的整合執行個體或類似的資料匯入程序,以將其帶入您的處理管線。 如下圖所示,上傳和引入儲存資源群組可讓您為這些使用案例布建 Blob 存放區。
資料應用團隊會要求儲存 Blob。 這些要求會獲得數據登陸區域作業小組的核准。 在將資料匯入原始資料儲存區後,應該從其來源儲存 Blob 中刪除資料。
重要
由於 Azure 儲存體 Blob 採取視需要 布建 的方式,因此您一開始應該在每個數據登陸區域中部署空的儲存服務資源群組。
數據擷取
此資源群組是選擇性的,而且不會阻止您部署登陸區域。 如果您有或正在開發的數據無關擷取引擎,可根據已註冊的元數據自動擷取數據,包括連接字串、數據傳輸路徑,以及擷取排程。
引入和處理資源群組擁有關鍵服務來支援這類架構。
部署 Azure SQL Database 實例來保存 Azure Data Factory 所使用的元數據。 布建 Azure Key Vault 以儲存與自動化擷取服務相關的秘密。 這些秘密可能包括:
- Azure Data Factory 中繼存放區認證
- 自動化匯入流程的服務主體認證
如需詳細資訊,請參閱 自動化擷取架構如何支援 Azure中的雲端規模分析。
此資源群組包含的服務包括:
服務 | 必填 | 指引 |
---|---|---|
Azure Data Factory | 是的 | Azure Data Factory 是您用於各類數據擷取的流程編排引擎。 |
Azure SQL DB | 是的 | Azure SQL DB 是 Azure Data Factory 的中繼存放區。 |
事件中樞或IoT中樞 | 可選的 | 事件中樞或IoT中樞可以提供即時串流至事件中樞,以及透過 Databricks 工程工作區的批次和串流處理。 |
Azure Databricks | 可選的 | 您可以部署 Azure Databricks 或 Azure Synapse Spark,來搭配資料中立的擷取引擎使用。 |
Azure Synapse | 可選 | 您可以部署 Azure Databricks 和 Azure Synapse Spark,與資料中立的擷取引擎搭配使用。 |
共用應用程式
當需要讓一組共用服務可供在此數據登陸區域中建置數據應用程式的所有小組使用時,就會使用此選擇性資源群組。 範例用法包括:
- Azure Databricks 工作區,用來作為在相同數據登陸區域 (或區域) 中建立之所有其他 Databricks 工作區的共用中繼存放區
- 使用無伺服器 SQL 集區的共用 Azure Synapse Analytics 實例,可讓使用者跨隔離的記憶體帳戶進行查詢。
注意
Azure Databricks 使用 Unity 目錄來管理跨 Databricks 工作區中繼存放區的存取權和可見性。 Unity Catalog 是在租戶層級啟用,但中繼存放區會與 Azure 區域對應。 實際上,這表示指定 Azure 區域中所有已啟用 Unity 目錄的 Databricks 工作區都必須註冊到相同的中繼存放區。 如需詳細資訊,請參閱 Unity 目錄最佳做法。
請遵循雲端規模分析最佳做法來整合 Azure Databricks:
- 從 Azure Databricks 保護對 Azure Data Lake Gen2 的存取
- Azure Databricks 最佳做法
數據應用程式
每個數據登陸區域可以有多個數據應用程式。 您可以從各種來源擷取數據來建立這些應用程式。 您也可以從相同數據登陸區域內的其他資料應用程式或其他數據登陸區域建立數據應用程式。 建立數據應用程式受限於數據管理人核准。
數據應用程式資源群組
您的數據應用程式資源群組包含建立該資料應用程式所需的所有服務。 例如,視覺化工具使用的 MySQL 需要 Azure 資料庫。 數據必須先內嵌並轉換,才能進入該 MySQL 資料庫。 在此情況下,您可以將適用於 MySQL 的 Azure 資料庫和 Azure Data Factory 部署到資料應用程式資源群組。
提示
如果您選擇不實作與資料無關的引擎來從作業來源一次性地擷取資料,或如果在您與資料無關的引擎中未能促成複雜連接,請建立與來源對齊的資料應用程式。 如需詳細資訊,請參閱 資料應用程式 (來源對齊)。
如需將資料產品上線的詳細資訊,請參閱 Azure 雲端規模分析資料應用程式。
報告與視覺化
您可以在 Fabric 工作區中使用視覺效果和報告工具,其與 Power BI 工作區有許多相似之處,而不需要在數據登陸區域內部署唯一的資源。 您可以包含資源群組來部署網狀架構容量、數據閘道的虛擬機,或其他必要的數據服務,以將您的資料應用程式傳遞給使用者。
後續步驟
- Azure 中的雲端規模分析數據產品