Azure 中的雲端規模分析數據產品
數據產品 是作為產品提供的數據,並由多種持續性服務計算、儲存及提供服務,而某些使用案例可能需要這些數據。 建立及服務數據產品的程式可能需要未包含在 數據登陸區域 核心服務中的服務和技術。 其中一個範例是具有特定需求的報告,例如合規報告和稅務報告。
設計考慮
數據登陸區域可以通過從相同的數據登陸區域或跨多個數據登陸區域匯入數據,來提供多個數據產品。 下圖所示。
上述範例顯示:
- 區域內資料耗用量:
- 數據產品 B 會取用數據產品 A 中的數據,以及其本身登陸區域內數據湖中現有的其他數據或數據產品。
- 數據產品 C 和 D 只會從各自的數據登陸區域內取用數據。
- 跨區域資料耗用量:
- 數據產品 B 也會取用數據產品 C 和第 3 登陸區域的數據湖中的數據。
重要
數據產品 B 會從數據產品 A 和 C 取用數據。在發生這種情況之前,數據產品 B 必須透過數據共享協議來註冊其數據產品的耗用量。 此數據共享合約應將數據產品 A 的譜系更新為數據產品 B,並將數據產品 C 更新為數據產品 B。
數據產品的資源群組包含建立和維護它所需的所有服務。 我們可以將此資源群組稱為 資料應用程式。 可能屬於數據應用程式的服務範例包括 Azure Functions、Azure App Service、Logic Apps、Azure Analysis Services、Azure 認知服務、Azure Machine Learning、Azure SQL Database、適用於 MySQL 的 Azure 資料庫和 Azure Cosmos DB。
數據產品包含來自 READ 數據源的數據,並已經過某些數據轉換。 範例可能是新策劃的數據集或 BI 報表。
設計建議
遵循可讓您透過資料治理進行擴展的設計原則,在資料著陸區內打造資料產品。 下列各節提供設計建議,協助您規劃數據應用程式生態系統。
部署多個資源群組
每個數據應用程式都是資源群組。 由於數據應用程式是計算服務、多語言持續性服務或兩者,因此,它們只能根據特定使用情況來需要。 因此,它們會被視為選擇性的數據登陸區域元件。 如果您需要數據應用程式,請依數據應用程式建立多個資源群組,如下圖所示。
設定護欄
Azure 原則會驅動數據登陸區域內服務的預設設定。 請將作業分析視為數據產品小組可從標準服務目錄要求的多個資源群組。 您可以使用 Azure 原則來設定安全性界限和必要的功能集。
重要
若要推動一致性,請為每個數據應用程式設定一個 Azure 原則。
從多個位置取用數據
數據應用程式會管理、組織及瞭解來自多個數據資產的數據,並呈現取得的任何見解。 數據產品是數據登陸區域內一或多個數據應用程式的數據結果。 允許您的數據應用程式在必要時從多個和各種來源存取數據。
按需要調整規模
組成數據應用程式的服務是對數據落地區域的漸進式部署。 根據需要擴展您的數據應用程式。
啟用數據探索
在數據目錄中自動註冊數據產品,例如 Microsoft Purview,以允許數據掃描。
識別您的數據產品
開始規劃數據登陸區域時,請視需要識別許多數據產品(以及輸出並維護這些產品的數據應用程式),以協助推動數據產品應用程式架構。 符合已執行的平臺治理應在您的決策過程中發揮最重要的作用。
專注於您的數據應用程式如何作為數據的生產者和消費者,對其他人發揮作用。 例如,假設您已識別出一組已產生和取用數據的數據產品套件(A、B、C 和 D)。 您需要數據產品 A 和 D 做為資料應用程式 B 中數據產品 B 中數據的來源。資料產品 B 是從資料應用程式 B 從數據產品 A 和 D 取用的數據建立。數據應用程式 B 會作為數據產生者本身,也會產生數據產品 C 的數據。
透過基礎設施即代碼控制您的資料應用環境
治理和基礎設施即程式碼應該控制您的數據產品生態系統中的數據應用環境,如上圖所示。
發佈數據模型
您的數據產品小組應該在模型存放庫中發佈其數據模型。
設定數據產品使用者的期望
使用數據產品的服務等級合約和認證來更新數據共享合約,讓您可以向數據產品的潛在使用者傳達準確的期望。
擷取譜系
如果從來自數據產品 A 和 D 的數據建立數據產品 B,則必須從 A 和 D 擷取譜系到 B。數據產品 C 也應該擷取進一步譜系,因為它是使用數據產品 B 的數據所建立。更新歷程應該在數據譜系應用程式中擷取,然後再發行數據產品。
注意
使用 Azure Pipelines 可讓您建置核准網關和叫用函式,以確保元數據、譜系和 SLA 已在正確的治理服務中註冊。
定義資料應用程式架構
您必須為每個數據產品建立詳細的架構,以完整定義其與其他數據產品的關聯性、其相依性,以及其存取需求。