數據登陸區域
數據登陸區域會透過虛擬網路 (VNet) 對等互連連線到 數據管理登陸區域 。 每個數據登陸區域都會被視為與 Azure 登陸區域架構相關的登陸 區域。
重要
布建數據登陸區域之前,請確定DevOps和 CI/CD作業模型已就緒,並部署數據管理登陸區域。
每個數據登陸區域都有數個層級,可讓服務數據整合及其所包含的數據產品靈活度。 您可以使用一組標準服務來部署新的數據登陸區域,讓數據登陸區域開始內嵌和分析數據。
與數據登陸區域相關聯的 Azure 訂用帳戶具有下列結構:
層 | 必要 | 資源群組 |
---|---|---|
核心服務 | Yes | |
數據應用程式 | 選擇性 |
|
視覺效果 | 選擇性 |
注意
數據應用程式會產生一或多個數據產品。
數據登陸區域架構
數據登陸區域架構說明圖層、其資源群組,以及每個資源群組所包含的服務。 此架構也提供與數據登陸區域相關聯的所有群組和角色概觀,以及其存取控制和數據平面的範圍。
提示
在部署數據登陸區域之前,請務必 考慮您想要部署的初始數據登陸區域數目。
使用此架構作為起點。 下載 Visio 檔案並加以修改,以符合您規劃數據登陸區域實作時的特定商務和技術需求。
核心服務層
核心服務層包含啟用雲端規模分析內容內數據登陸區域所需的所有服務。 下表列出資源群組,這些資源群組會在您所部署的每個數據登陸區域中提供標準可用的服務套件。
資源群組 | 必要 | 描述: |
---|---|---|
network-rg |
Yes | 網路 |
databricks-monitoring-rg |
選擇性 | 監視 Azure Databricks 工作區 |
hive-rg |
選擇性 | Azure Databricks 的 Hive 中繼存放區 |
storage-rg |
Yes | Data Lake 服務 |
external-data-rg |
Yes | 上傳內嵌記憶體 |
runtimes-rg |
Yes | 共用整合運行時間 |
mgmt-rg |
Yes | CI/CD 代理程式 |
metadata-ingestion-rg |
選擇性 | 數據無從驗證擷取 |
databricks-monitoring-rg |
選擇性 | 登陸區域中 databricks 工作區的Log Analytics工作區 |
shared-synapse-rg |
選擇性 | 共用 Azure Synapse |
shared-databricks-rg |
選擇性 | 共用 Azure Databricks 工作區 |
網路
網路資源群組包含核心元件,包括 Azure 網路監看員、網路安全組 (NSG) 和虛擬網路。 所有這些服務都會部署到單一資源群組。
數據登陸區域的虛擬網路會自動與您的數據管理登陸區域的 VNet 和聯機訂用帳戶的 VNet 對等互連。
Azure Databricks 工作區監視
此資源群組是選擇性的,且只會使用 Azure Databricks 進行部署。
Azure 登陸區域模式建議您將所有記錄傳送至中央 Log Analytics 工作區。 不過,每個數據登陸區域也包含監視資源群組,以從 Databricks 擷取 Spark 記錄。 每個資源群組都包含共用的Log Analytics工作區和 Azure 金鑰保存庫 來儲存 Log Analytics 金鑰。
重要
只使用 Databricks 監視資源群組中的 Log Analytics 工作區來擷取 Azure Databricks Spark 記錄。
如需詳細資訊,請參閱 監視 Azure Databricks。
Azure Databricks 的 Hive 中繼存放區
此資源群組是選擇性的,只能使用 Azure Databricks 進行部署。
Azure Databricks 的 Hive 中繼存放區會佈建 適用於 MySQL 的 Azure 資料庫 資料庫和密鑰保存庫。 數據登陸區域中的所有 Azure Databricks 工作區都會使用此中繼存放區作為其外部 Apache Hive 中繼存放區。
如需詳細資訊,請參閱 外部 Apache Hive 中繼存放區。
Data Lake 服務
如上圖所示,在單一 Data Lake Services 資源群組中會布建三 個 Azure Data Lake Storage Gen2 帳戶。 在不同階段轉換的數據會儲存在數據登陸區域的其中一個數據湖中。 數據可供分析、數據科學和視覺效果小組取用。
數據湖層會根據技術和廠商使用不同的術語。 下表提供如何套用詞彙以進行雲端規模分析的指引:
雲端級分析 | Delta Lake | 其他條款 | 描述 |
---|---|---|---|
Raw | 青銅卡 | 登陸與一致性 | 擷取資料表 |
擴充 | 銀色 | 標準化區域 | 精簡數據表。 從記錄系統儲存完整的實體、已耗用量就緒的記錄集。 |
策展 | 金卡 | 產品區域 | 功能或匯總數據表。 應用程式、小組和使用者用來取用數據產品的主要區域。 |
部署 | -- | 開發區 | 數據工程師和科學家的位置,包括分析沙盒和產品開發區。 |
注意
在上圖中,每個數據登陸區域都有三個數據湖。 不過,視您的需求而定,您可能會想要將原始、豐富和策劃的層合併到一個記憶體帳戶,並維護另一個名為「開發」的記憶體帳戶,讓數據取用者引進其他有用的數據產品。
如需詳細資訊,請參閱
- 適用於雲端規模分析的 Azure Data Lake Storage 概觀
- 數據標準化
- 為每個數據登陸區域布建 Azure Data Lake Storage Gen2 帳戶
- Azure Data Lake Storage 的重要考量
- Azure Data Lake Storage 中的訪問控制和 Data Lake 組態
上傳內嵌記憶體
第三方數據發行者需要在平臺中登陸數據,讓數據應用程式小組可以將數據提取到其數據湖中。 如下圖所示,上傳內嵌記憶體資源群組可讓您為第三方布建 Blob 存放區。
您的資料應用程式小組會要求這些記憶體 Blob。 然後,數據登陸區域作業小組會核准其要求。 一旦從記憶體 Blob 提取至原始數據,數據應該會從其來源記憶體 Blob 中移除。
重要
由於 Azure 儲存體 Blob 會視需要布建,因此您一開始應該在每個數據登陸區域中部署空的記憶體服務資源群組。
共用整合運行時間
將具有自我裝載整合運行時間的虛擬機部署到您的數據登陸區域。 將它裝載在共用整合資源群組中。 此部署可讓您將數據產品快速上線至數據登陸區域。
若要啟用資源群組:
- 在數據登陸區域的共用整合資源群組中,建立至少一個 Azure Data Factory。 只用於連結共用自我裝載整合運行時間,而不是用於數據管線。
- 在虛擬機上建立及設定自我裝載整合運行時間 。
- 將自我裝載整合運行時間與數據登陸區域中的 Azure 數據處理站產生關聯。
- 設定 Azure 自動化 定期更新自我裝載整合運行時間。
注意
上述部署提供具有自我裝載整合運行時間的單一虛擬機部署。 您可以將一個自我裝載整合執行階段與 Azure 中的多部內部部署機器或虛擬機器產生關聯。 這些電腦稱為節點。 一個自我裝載整合執行階段最多可與四個節點建立關聯。 在已為邏輯閘道安裝閘道的內部部署機器上擁有多個節點的優點如下:
- 自我裝載整合執行階段的可用性更高,如此一來,其就不再是您的巨量資料解決方案或雲端資料整合的單一失敗點。 當您最多使用四個節點時,此可用性有助於確保持續性。
- 提升在內部部署和雲端資料存放區之間移動資料時的效能和輸送量。 如需詳細資訊,請參閱效能比較。
您可以從下載中心安裝自我裝載整合執行階段軟體,以關聯多個節點。 然後,使用從 New-AzDataFactoryV2IntegrationRuntimeKey Cmdlet 取得的其中一個驗證金鑰進行註冊,如教學課程中所示。
Azure Datafactory 高可用性和延展性會詳細說明其他資訊。
重要
盡可能接近數據源部署共用整合運行時間。 其部署不會限制您在數據登陸區域或第三方雲端中部署整合運行時間。 相反地,它會為雲端原生區域數據源提供後援。
CI/CD 代理程式
CI/CD 代理程式可協助您部署資料應用程式和數據登陸區域的變更。
如需詳細資訊,請參閱 Azure Pipeline 代理程式。
數據無從驗證擷取
此資源群組是選擇性的,而且不會禁止您部署登陸區域。
如果您有 (或正在開發) 數據無關的擷取引擎,即可根據註冊元數據自動內嵌數據,套用此資源群組(包括 連接字串、複製數據的路徑,以及擷取排程。 擷取和處理資源群組具有這類架構的重要服務。
部署 Azure SQL 資料庫 實例,以保存 Azure Data Factory 所使用的元數據。 布建 Azure 金鑰保存庫,以儲存與自動化擷取服務相關的秘密。 這些秘密可能包括:
- Azure Data Factory 中繼存放區認證
- 自動化擷取流程的服務主體認證
如需詳細資訊,請參閱 自動化擷取架構如何支援 Azure 中的雲端規模分析。
此資源群組包含的服務包括:
服務 | 必要 | 指導方針 |
---|---|---|
Azure Data Factory | Yes | Azure Data Factory 是無從驗證數據擷取的協調流程引擎。 |
Azure SQL DB | Yes | Azure SQL DB 是 Azure Data Factory 的中繼存放區。 |
事件中樞或 IoT 中樞 | 選擇性 | 事件中樞或 IoT 中樞 可以提供即時串流至事件中樞,以及透過 Databricks 工程工作區進行批次和串流處理。 |
Azure Databricks | 選擇性 | 您可以部署 Azure Databricks 或 Azure Synapse Spark,以便與數據無關的擷取引擎搭配使用。 |
Azure Synapse | 選擇性 | 您可以部署 Azure Databricks 或 Azure Synapse Spark,以與數據無關的擷取引擎搭配使用。 |
共用 Databricks
此資源群組是選擇性的,且只會使用 Azure Databricks 進行部署。 數據登陸區域中的每個人都可以使用 Databricks 工作區。
Azure Databricks 是 Azure Data Lake Storage 服務的主要取用者。 不可部分完成的檔案作業已針對Spark分析引擎進行優化。 此優化可加速完成 Azure Databricks 服務所發出之 Spark 作業。
重要
Azure Databricks 工作區稱為 Azure Databricks (analytics) 工作區會針對所有數據科學家和 DataOps 布建,如共用產品資源群組所示。
您可以使用Microsoft Entra 傳遞或數據表訪問控制,設定此工作區以連線到 Azure Data Lake。 根據您的使用案例,您可以將條件式存取設定為另一個安全性量值。
請遵循雲端規模分析最佳做法來整合 Azure Databricks:
Azure 登陸區域模式建議您將所有記錄傳送至中央 Log Analytics 工作區。 不過,每個數據登陸區域也包含監視資源群組,以從 Databricks 擷取 Spark 記錄。
共用 Azure Synapse Analytics
此資源群組是選擇性的。
在您初始設定數據登陸區域期間,會部署單一 Azure Synapse Analytics 工作區,以供共用產品資源群組中的所有數據分析師和科學家使用。
如果需要成本管理和充電,您可以為數據產品設定更多 Synapse 工作區。 您的數據應用程式小組可能會使用專用的 Azure Synapse Analytics 工作區,將專用的 Azure SQL 資料庫 集區建立為視覺效果層所使用的讀取數據存放區。
重要
藉由鎖定工作區只允許 SQL 隨選查詢,防止使用共用的 Azure Synapse 工作區來建立數據產品。 它僅供惡意探索之用。
數據應用程式
每個數據登陸區域可以有多個數據產品。 您可以從來源擷取數據來建立這些數據產品。 您也可以從相同數據登陸區域內的其他數據產品或其他數據登陸區域建立數據產品。 數據產品的數據產品建立受限於數據管理人核准。
數據產品資源群組
您的數據產品資源群組產品包含建立該數據產品所需的所有服務。 例如,MySQL 需要 Azure 資料庫,而 MySQL 則供視覺效果工具使用。 數據必須先內嵌並轉換,才能進入該 MySQL 資料庫。 在此情況下,您可以將 適用於 MySQL 的 Azure 資料庫 和 Azure Data Factory 部署到數據產品資源群組。
提示
如果您選擇不實作數據無關引擎,以便從作業來源擷取一次,或如果您的數據無從驗證引擎中促進複雜的連線,請建立來源對齊的數據應用程式。 如需詳細資訊,請參閱 資料應用程式(來源對齊)
如需如何上線數據產品的詳細資訊,請參閱 Azure 中的雲端規模分析數據產品。
視覺效果
系統會為每個數據登陸區域建立空的視覺效果資源群組。 將此資源群組填入您需要實作視覺效果解決方案的服務。 使用現有的 VNet 可讓您的解決方案連線到數據產品。
此資源群組可以裝載第三方視覺效果服務的虛擬機。
提示
由於授權成本,將第三方視覺效果產品部署到數據管理登陸區域,以及讓這些產品跨數據登陸區域連線以提取數據可能更為經濟。