雲端規模分析的 Microsoft Purview 部署最佳做法
資料管理登陸區域 負責雲端規模分析平臺的治理。 它依賴 Microsoft Purview 來提供大部分的資料管理功能。
注意
本節中的本指南說明雲端規模分析特有的設定。 這是使用 Microsoft Purview 增強資料控管的 Azure 最佳做法集合。 本指南會補充官方 的 Microsoft Purview 檔 。
概觀
Microsoft Purview 是統一資料治理服務,可協助您管理及治理內部部署、多雲端與軟體即服務 (SaaS) 資料。 透過自動化的資料探索、敏感性資料分類和端對端資料譜系,為資料態勢建立狀態最新的全面性地圖。 讓資料編製者能夠管理和保護您的資料資產。 讓資料取用者獲得有價值且可信任的資料。
提示
建議您使用您選擇的協力廠商工具,將資料管理登陸區域的 其餘功能 與 Microsoft Purview 目前不支援的 Azure 整合。
其中一個 Microsoft Purview 帳戶會部署在資料管理登陸區域內,其可作為集中式資料目錄。 從資料管理登陸區域,Microsoft Purview 可以使用跨資料管理、資料登陸區域和 自我裝載整合執行時間 之間的 VNet 對等互連,透過私人網路連線與每個資料登陸區域進行通訊。 透過更多自我裝載整合執行時間的部署,探索內部部署資料存放區和其他公用雲端中的資料產品。
帳戶設定
第一個步驟是部署 Microsoft Purview 帳戶。 在 部署資料管理登陸區域 期間,會自動在資料管理訂用帳戶內部署單一 Microsoft Purview 帳戶。 目標是將整個資料對應集中到所有資料登陸區域的單一 Microsoft Purview 帳戶。 建議您考慮每個環境類型資料管理登陸區域訂用帳戶內的共用單一 Microsoft Purview 帳戶。
除了 Microsoft Purview 帳戶之外,也會部署受控資源群組。 受控 儲存體帳戶 和受控 事件中樞命名空間 會部署在此資源群組內,並用來透過掃描內嵌資料資產中繼資料。 由於 Microsoft Purview 目錄會取用這些資源,因此不得將其移除。 部署時,資源群組層級的所有主體會自動新增 Azure 角色型存取控制 RBAC 拒絕指派 。
必要條件
在部署之前,請檢閱資料管理登陸區域訂用帳戶內的下列需求:
- 進行原則豁免: 如果您有現有的Azure 原則指派,可防止系統管理員或應用程式建立Azure 儲存體帳戶、Azure 事件中樞命名空間、Microsoft Purview 帳戶、Azure 私用 DNS 區域或 Azure 私人端點,您必須套用 Azure 原則豁免 。 需要豁免,因此所需的資源可以部署在資料管理登陸區域中,以及 Microsoft Purview 部署。
- 註冊資源提供者: 請確定您在資料管理登陸區域訂用帳戶中註冊下列 Azure 資源提供者:
Microsoft.EventHub
Microsoft.Purview
Microsoft.Storage
重要
若要使用 Microsoft Purview 成功部署資料管理登陸區域,應符合必要條件。 若要深入瞭解如何註冊資源提供者,請參閱 Azure 服務 的資源提供者。
網路和名稱解析
雲端規模分析會使用 Azure 私人端點 ,以 Azure Private Link 提供 的安全存取目錄。 私人端點會針對您的 Microsoft Purview 帳戶使用 VNet 位址空間中的 IP 位址。 VNet 上的用戶端與 Microsoft Purview 帳戶之間的網路流量會透過 VNet 和 Microsoft 骨幹網路上的 Private Link 周遊。 VNet 和 Private Link 會消除來自公用網際網路的曝光。 若要啟用端對端掃描案例的網路隔離,則會部署更多私人端點。 私人端點可讓 Azure 中的資料來源和內部部署來源透過 Azure Private Link 連線。
Azure 私人端點部署
Microsoft Purview 帳戶會部署在資料管理登陸區域內具有數個私人端點的 Azure 虛擬網路 (VNet) 內:
帳戶: 私人端點可用來只允許來自私人網路內之 Microsoft Purview 的用戶端呼叫。 這是入口網站 私人端點的必要 條件。
入口網站: 私人端點旨在提供 Microsoft Purview 治理入口網站的私人連線。 Microsoft Purview 治理入口網站是管理使用者介面,可讓您從網頁瀏覽器存取及管理 Microsoft Purview。
擷取 私人端點,以透過私人連線掃描 Azure 虛擬網絡 和內部部署資料來源內的 Azure IaaS 和 PaaS 資料來源。 此方法可確保您的中繼資料從資料來源流向 Microsoft Purview 資料對應的網路隔離。
重要
若要成功掃描 Microsoft Purview 中的資料來源,必須在部署 Microsoft Purview 擷取私人端點所在的相同虛擬網路內部署自我裝載整合執行時間,這些端點可以位於資料管理登陸區域或任何資料登陸區域內。
如需資料管理登陸區域網路的詳細資訊,請參閱 雲端規模分析網路 。
如需 Microsoft Purview 私人端點的詳細資訊,請參閱 針對您的 Microsoft Purview 帳戶 使用私人端點。
帳戶和入口網站的私人端點
若要使用 Microsoft Purview 管理資料資產,並聯機到 Microsoft Purview 治理入口網站,您必須使用私人連線。 公用存取僅限於部署在資料管理登陸區域內的 Microsoft Purview 帳戶,以新增更多安全性。 帳戶 和 入口網站 私人端點會部署,以提供 Microsoft Purview 帳戶的私人連線,以及 Microsoft Purview 治理入口網站的存取權。
存取 Microsoft Purview 治理入口網站
若要透過私人連線來維護 Microsoft Purview 入口網站的使用,建議您在 Microsoft Purview 設定中拒絕公用網路存取 。 若要連線到 Microsoft Purview 治理入口網站, 您需要在您的網路內部署的跳板電腦 或 跳躍方塊 。 您可以從混合式網路或作為資料管理登陸區域內的虛擬機器使用機器。 跳板電腦是強化的遠端存取服務器,通常使用 Microsoft 的遠端桌面服務或安全殼層 (SSH) 軟體。 跳躍電腦可作為系統管理員的逐步執行點,這些系統管理員會使用從專用主機完成的所有系統管理動作來存取重要系統。
使用下列任一選項,透過 Microsoft Purview 治理入口網站使用 Microsoft Purview 來管理您的資料:
選項 1: 使用連線到公司網路的跳板電腦。 若要使用此連線模型,您必須在建立 Microsoft Purview 入口網站私人端點的 VNet 和公司網路之間連線。
如需網路拓撲和連線能力概觀 的詳細資訊 ,請檢閱雲端採用架構網路功能。
選項 2: 如果您的組織中無法使用混合式連線, 請在資料管理登陸區域內部署虛擬機器 。 部署 Azure Bastion 以使用安全連線連線連線至 Microsoft Purview。
擷取的私人端點
Microsoft Purview 可以使用私人或公用端點掃描 Azure 或內部部署環境中的資料來源。 資料登陸區域的網路會自動與資料管理登陸區域 VNet 和連線訂用帳戶 VNet 對等互連。 因此,可以使用私人連線來掃描資料登陸區域內的資料來源。
建議您為登陸區域 內的其他 資料來源啟用私人端點,並使用私人連線來掃描資料來源。
名稱解析
私人端點的 DNS 解析應該透過中央 Azure 私用 DNS 區域來處理。 下列私人 DNS 區域會自動部署在資料管理登陸區域的 Microsoft Purview 部署中:
privatelink.purview.azure.com
privatelink.purviewstudio.azure.com
privatelink.blob.core.windows.net
privatelink.queue.core.windows.net
privatelink.servicebus.windows.net
如果您有混合式雲端,且需要跨單位名稱解析,請務必正確設定內部部署 DNS 伺服器,以將適當的要求轉送至 Azure 中的自訂 DNS 伺服器。
如果您已在 Azure 中擁有自訂 DNS,您必須在指向它的內部部署 DNS 伺服器上設定條件式轉寄站。
如果您沒有 Azure 中的自訂 DNS VM,您可以部署已設定為將 DNS 要求轉送至 Azure 提供的 DNS IP
168.63.129.16
的 NGINX 的 Azure 虛擬機器擴展集。 如需詳細資訊,請參閱 將 NGINX DNS Proxy 的虛擬機器擴展集部署到現有的虛擬網路 。
提示
若要允許資料管理登陸區域與資料登陸區域之間的名稱解析,請使用位於資料管理登陸區域內資源群組內的 {prefix}-global-dns
相同私人 DNS 區域。
如需雲端規模分析網路和名稱解析的詳細資訊,請參閱 雲端規模分析網路功能
在 Microsoft Purview 中管理資料來源的驗證
Microsoft Purview 需要存取 控制平面 和資料 平面 ,才能註冊及掃描資料來源。
註冊資料來源
當您部署 Microsoft Purview 帳戶時,系統會自動建立系統指派的受控識別。 它會在 Microsoft Entra 租使用者中建立,並指派給此資源。 若要在 Microsoft Purview 中註冊資料來源時,讀取並列出訂用帳戶或資源群組下的 Azure 資源,Microsoft Purview 受控識別需要範圍上的 Azure RBAC 讀取者 角色。
請考慮將 讀者 角色指派給每個資料登陸區域訂用帳戶中的 Microsoft Purview 受控識別,再將上述任何資料來源註冊到 Microsoft Purview:
- Azure Blob 儲存體
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2
- Azure SQL Database
- Azure SQL 受控執行個體
- Azure Synapse Analytics
掃描資料來源
在執行任何新的掃描之前,請確定您已完成下列需求:
部署和註冊自我裝載整合執行時間
為每個資料登陸區域部署和註冊 自我裝載整合執行時間 (IR) VM。 需要自我裝載的 IR 才能掃描資料來源,例如 Azure SQL 資料庫或任何以 VM 為基礎的資料來源。 這些資料來源可能是內部部署或每個資料登陸區域中。 自我裝載 IR 可以在雲端資料存放區和私人網路中的資料存放區之間執行複製活動。 其也可以針對內部部署網路或 Azure 虛擬網路中的計算資源分派轉換活動。 自我裝載 IR 的安裝需要內部部署機器或私人網路內的虛擬機器。
提示
建議您使用專用機器來裝載 IR。 電腦應該與裝載資料存放區的伺服器分開。 此外,強烈建議您規劃每個資料登陸區域或內部部署環境中的至少兩個自我裝載 IR VM。
若要掃描內部部署資料來源,可以在內部部署網路中部署自我裝載的 IR,不過,若要掃描位於 Azure 中的資料來源,自我裝載的 IR 必須部署在與 Microsoft Purview 擷取私人端點相同的 VNet 中。 建議為每個資料來源所在的區域部署新的擷取私人端點和新的自我裝載 IR。
您可能想要裝載增加的並行工作負載。 或者,您可能想要在目前的工作負載層級達到更高的效能。 您可以使用下列其中一種方法來增強處理規模:
- 當節點的處理器和記憶體使用不足時相應增加
- 藉由新增更多節點或虛擬機器擴展集來相應放大自我裝載 IR
指派資料平面的存取權以掃描資料來源
若要在資料平面和資料來源提供 Microsoft Purview 的存取權,有多個選項可設定驗證:
- 選項 1: 受控識別
- 選項 2: Azure 金鑰保存庫中儲存為秘密的帳戶金鑰或密碼
- 選項 3: Azure 中儲存的服務主體金鑰保存庫為秘密
重要
若要透過 Microsoft Purview 中的 Azure Private Link 掃描資料來源,您必須部署自我裝載整合執行時間,並使用帳戶金鑰/SQL 驗證 或服務 主體 ,從驗證資料來源的選項。
提示
當資料來源無法使用 Azure Private Link 時,建議您使用 Microsoft Purview 受控識別來掃描資料來源。 在此情況下,您必須在 Microsoft Purview 帳戶防火牆設定上允許公用存取。
將秘密儲存在 Azure 金鑰保存庫
多個 Azure 金鑰保存庫資源會部署在資料管理登陸區域和資料登陸區域訂用帳戶內。 Azure 金鑰保存庫資源會將與中繼資料資料來源相關的秘密儲存在資料管理登陸區域和資料來源中。 資料來源的範例是 Azure Data Factory 取用的 Azure SQL 資料庫。 或適用於 MySQL 的 Azure 資料庫 Databricks 工作區在資料登陸區域中使用。
連線 Azure 金鑰保存庫的資料登陸區域至您的 Microsoft Purview 帳戶
Microsoft Purview 可以使用儲存在 Azure 金鑰保存庫中的秘密和認證。 只有在您在 Microsoft Purview 帳戶內建立 Azure 金鑰保存庫連線,且秘密已註冊時,才能使用它們。 新增資料登陸區域之後,您必須在 Microsoft Purview 帳戶內建立新的 Azure 金鑰保存庫連線。 連線是 Azure 金鑰保存庫 資源與 Microsoft Purview 帳戶的一對一關聯。 它會根據儲存在 Azure 金鑰保存庫 中的秘密,在 Microsoft Purview 帳戶內建立認證。
如需詳細資訊,請參閱 在 Microsoft Purview 帳戶 中建立 Azure 金鑰保存庫連線。
提示
移除任何未使用的 Azure 金鑰保存庫,以將金鑰保存庫連線降到最低。
在 Microsoft Purview 內建立認證
針對特定案例,您可能需要使用金鑰保存庫 秘密 來設定 認證 :
- 掃描 Microsoft Purview 受控識別無法作為驗證方法的任何資料來源。
- 若要使用自我裝載整合執行時間掃描任何資料來源,支援的驗證類型,例如帳戶金鑰、SQL 驗證(密碼)或服務主體必須儲存在認證中。
- 若要使用私人端點掃描資料來源以進行資料擷取。
- 掃描虛擬機器內或內部部署環境內的資料來源。
在 Microsoft Purview 中建立任何認證之前,您的 Microsoft Purview 帳戶必須能夠存取 Azure 金鑰保存庫秘密。 使用 Azure 金鑰保存庫存取原則或角色型存取控制 (RBAC) 來授與 Microsoft Purview 受控服務識別 (MSI) 所需的存取權。 如需如何將 Microsoft Purview MSI 存取權授與 Azure 金鑰保存庫並在 Microsoft Purview 內建立認證的詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證。
Microsoft Purview 角色和存取控制
Microsoft Purview 有數個內建角色,例如資料讀取器、資料策展人、集合管理員、資料來源管理員和原則作者來管理資料平面,這可以結合以提供更多許可權。 例如,資料讀取者角色是針對資料官、資料管理人和需要資料資產唯讀存取權的首席安全性官等角色為目標。 資料資產可能包含分類、透過搜尋選項的譜系,以及 Microsoft Purview 中可用的報告。
當資料管理登陸區域 部署完成之後,請使用最低許可權模型來提供在 Microsoft Purview 中檢視或管理中繼資料的存取權。
重要
Microsoft Purview 資料平面角色必須在 Microsoft Purview 治理入口網站內或使用 API 直接管理。
如需 Microsoft Purview 角色的詳細資訊,請參閱 Microsoft Purview 資料平面中的存取控制
建議的 Microsoft Purview 角色
檢閱下列涉及雲端規模分析部署的角色 清單。 指派相關的 Microsoft Purview 角色,讓他們能夠在部署成功時做出貢獻:
角色 | 角色 | 建議的 Microsoft Purview 角色 |
---|---|---|
產品擁有者 | 產品擁有者會使用 Azure 來轉換您的解決方案、為企業帶來靈活度,以及優化商務程式。 | 資料讀者 |
解決方案架構設計師 | 定義解決方案,以跨越企業商務網路界限。 瞭解如何處理 Azure 服務的診斷、分析、設計、部署和整合。 | |
開發人員和 DevOps 工程師 | 使用 Azure DevOps 或 GitHub 設計、建置、部署、測試及維護持續整合和傳遞程式。 | 不適用 |
資訊安全工程師 | 讓您的小組使用最佳做法,在 Azure 上設計和實作安全的基礎結構。 | |
技術和業務經理 | 建置對 Azure 服務的整體瞭解。 控制您的雲端成本,並優化您的作業和小組的靈活度。 | 不適用 |
決策者和商務使用者 | 使用 Azure 來存取可採取動作的深入解析,預期其會以最相關的形式傳遞。 使用內嵌在現有解決方案中的 AI,將商務程式優化。 | 資料讀者 |
資料管理員 | 負責布建和管理資料資產的存取權。 | 資料讀取器或資料策展人 |
資料分析師和效能分析師 | 使用 Azure 來探索及共用現有資料資產或 臨機操作 資料的新深入解析。 建立單鍵 AI 轉換、取用預先建置的模型,並輕鬆地產生機器學習模型。 | |
資料工程師 | 使用 Azure 來建置、整合及管理資料和分析產品。 視需要建立已啟用 AI 的應用程式和解決方案。 | |
公民資料科學家 | 透過功能強大的視覺效果、拖放、無程式碼工具建立機器學習模型,而不需要撰寫程式碼 | |
資料科學家 | 使用您慣用的工具和機器學習架構來建置可調整的資料科學解決方案。 加速端對端機器學習生命週期。 | |
機器學習工程師 | 啟用正確的程式和基礎結構,以輕鬆部署模型和模型管理。 |
如需資料角色的詳細資訊,請參閱 角色和小組 。