聯機到 Microsoft Purview 中的 Azure Data Lake Storage
本文概述在 Microsoft Purview 中註冊和管理 #DA0E2A5A679394F9E96E2B9C935000F71 (ADLS Gen2) 數據源的程式,包括驗證 ADLS Gen2 來源並與其互動的指示。
支援的功能
元數據擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 譜系 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 是 | 是 | 是 | 是 | 是 (預覽) | 受限* | 是 | 是 |
* 如果數據集是做為 Data Factory 或 Synapse 管線中的來源/接收器,則支援譜系。
掃描 Azure Data Lake Storage Gen2 來源時,Microsoft Purview 支援擷取技術元數據,包括:
- 儲存體帳戶
- Data Lake Storage Gen2 服務
- 檔系統 (容器)
- 資料夾
- 檔案
- 資源集
設定掃描時,您可以選擇掃描整個 ADLS Gen2 或選擇性資料夾。 在這裡瞭解支援的檔案格式。
必要條件
具有使用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
您必須是數據源管理員和數據讀取者,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需詳細資訊,請參閱 我們的 Microsoft Purview 許可權] 頁面 。
您必須至少有 ADLS Gen 2 帳戶的讀者許可權 ,才能註冊它。
登錄
本節可讓您註冊 ADLS Gen2 數據源,以在 Purview 中進行掃描和數據共用。
註冊的必要條件
- 您必須是數據源 管理員,以及其中一個其他 Purview 角色 (例如數據讀取器或 Data Share 參與者) ,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需詳細資訊,請參閱 我們的 Microsoft Purview 許可權] 頁面 。
註冊步驟
在設定數據源掃描之前,請務必先在 Microsoft Purview 中註冊數據源。
移至 Microsoft Purview 治理入口網站,方法如下:
- 直接流覽並 https://web.purview.azure.com 選取您的 Microsoft Purview 帳戶。
- 開啟 Azure 入口網站,搜尋並選取 Microsoft Purview 帳戶。 選取 [ Microsoft Purview 治理入口網站 ] 按鈕。
瀏覽至 資料對應 --> 來源
使用 [集合] 功能表建立集合階層,並視需要將許可權指派給個別子集合
流覽至 [ 來源 ] 功能表下的適當集合,然後選取 [註冊 ] 圖示以註冊新的 ADLS Gen2 數據源
選取 Azure Data Lake Storage Gen2 數據源,然後選取 [繼續]
為數據源提供適當的 [名稱 ],選取相關的 Azure 訂用帳戶、現有的 Data Lake Store 帳戶名稱 和 集合 ,然後選取 [ 套用]。 將 [數據原則強制執行 ] 切換保留在 停 用的位置,直到您有機會仔細流覽此 文件為止。
ADLS Gen2 儲存體帳戶會顯示在選取的集合下方
掃描
掃描的驗證
您的 Azure 網路可能會允許 Azure 資源之間的通訊,但如果您已在 Azure 內設定防火牆、私人端點或虛擬網路,則必須遵循下列其中一個設定。
網路條件約束 | 整合運行時間類型 | 可用的認證類型 |
---|---|---|
沒有私人端點或防火牆 | Azure IR | 受控識別 (建議的) 、服務主體或帳戶密鑰 |
已啟用防火牆,但沒有私人端點 | Azure IR | 受控識別 |
已啟用私人端點 | *自我裝載 IR | 服務主體、帳戶金鑰 |
重要事項
- *若要使用自我裝載整合運行時間,您必須先 為您的案例選擇正確的整合運行時間、建立一個,並確認 您Microsoft Purview 的網路設定。
- 如果您使用 Self-Hosted Integration Runtime 掃描 parquet 檔案,則必須在 IR 計算機上安裝 64 位 JRE 8 (Java 運行時間環境) 或 OpenJDK 。 您可以查看我們的 Java 執行時間環境安裝指南。
使用系統或使用者指派的受控識別進行掃描
您可以使用兩種類型的受控識別:
系統指派的受控識別 (建議的) - 一旦建立Microsoft Purview 帳戶,系統指派的受控識別 (SAMI) 就會在 Microsoft Entra 租使用者中自動建立。 視資源類型而定,Microsoft Purview 系統指派的受控識別 (SAMI) 執行掃描需要特定的 RBAC 角色指派。
使用者指派的受控識別 (預覽) - 類似於系統受控識別,使用者指派的受控識別 (UAMI) 是認證資源,可用來允許 Microsoft Purview 對 Microsoft Entra ID 進行驗證。 如需詳細資訊,您可以參閱我們的 使用者指派受控識別指南。
請務必為您的 Microsoft Purview 帳戶或使用者指派的受控識別 (UAMI) 掃描 ADLS Gen2 數據源的許可權。 您可以新增 Microsoft Purview 帳戶的系統指派受控識別 (,其名稱與訂用帳戶、資源群組或資源層級的 Microsoft Purview 帳戶) 或 UAMI 相同,視需要的層級掃描許可權而定。
注意事項
您必須是訂用帳戶的擁有者,才能在 Azure 資源上新增受控識別。
從 Azure 入口網站 中,尋找訂用帳戶、資源群組或資源 (,例如您想要允許目錄掃描的 Azure Data Lake Storage Gen2 儲存器帳戶) 。
選取左側導覽中的 [存取控制 (IAM) ],然後選取 [+ 新增] [新增>角色指派]
將 [角色] 設定為 [記憶體 Blob 數據讀取器],然後在 [選取輸入] 方塊底下輸入您的 Microsoft Purview 帳戶名稱或使用者指派的受控識別。 然後,選取 [ 儲存 ] 將此角色指派給Microsoft Purview 帳戶。
注意事項
如需詳細資訊,請參閱使用 Microsoft Entra ID 授權存取 Blob 和佇列中的步驟
注意事項
如果您已啟用記憶體帳戶的防火牆,您必須在設定掃描時使用 受控識別 驗證方法。
在 Azure 入口網站 中移至您的 ADLS Gen2 儲存器帳戶
流覽至 [安全性 + 網路功能 > ]
在 [允許從中存取] 下選擇 [選取的網络]
在 [ 例外狀況] 區段中,選取 [ 允許受信任Microsoft服務存取此儲存體帳戶 ,然後按 [ 儲存]
建立掃描
開 啟您的 Microsoft Purview 帳戶 ,然後選 取 [開啟Microsoft Purview 治理入口網站]
流覽至 資料對應 -->Sources 以檢視集合階層
選取稍早註冊的 ADLS Gen2 數據源底下的 [新增掃描] 圖示
如果您的來源可公開存取,請選擇 Azure 整合運行時間、使用受控虛擬網路的受控虛擬網路時選擇受控虛擬 網路整合運行時間 ,如果您的來源位於私人虛擬網路中,則選擇自我裝載整合運行時間。 如需要使用之整合運行時間的詳細資訊,請參閱 選擇正確的整合運行時間設定一文。
如果使用系統或使用者指派的受控識別
提供掃描的 [名稱 ]、在 [ 認證] 下選取系統指派或使用者指派的受控識別、為掃描選擇適當的集合,然後選取 [ 測試連線]。 在成功的連線上,選取 [ 繼續]。
設定範圍並執行掃描
您可以選擇清單中的適當專案,將掃描範圍設定為特定資料夾和子資料夾。
然後選取掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。
如果建立新的 掃描規則集,請選取要包含在掃描規則中 的文件類型 。
您可以選取要包含在掃描 規則中的分類 規則
選擇掃描觸發程式。 您可以設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [儲存並執行]。
檢視掃描和掃描執行
若要檢視現有的掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
- 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行標識碼以檢查 掃描執行詳細數據。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
資料共用
Microsoft Purview 資料共用 (預覽) 可讓您就地從 ADLS Gen2 共用數據至 ADLS Gen2。 本節提供有關就地共用和接收數據之 ADLS Gen2 特定需求的詳細數據。 如需如何使用數據共用的逐步指南,請參閱 如何共享數據 和 如何接收共用 。
就地數據共享支持的記憶體帳戶
就地資料共享支援下列記憶體帳戶:
- 區域:加拿大中部、加拿大東部、英國南部、英國西部、澳大利亞東部、日本東部、南韓南部和南非北部
- 備援選項:LRS、GRS、RA-GRS
- 階層:經常性存取層、非經常性存取層
預覽版僅使用不含生產工作負載的記憶體帳戶。
注意事項
來源和目標記憶體帳戶必須位於彼此相同的區域中。 它們不需要與 Microsoft Purview 帳戶位於相同的區域。
共用數據所需的記憶體帳戶許可權
若要將記憶體帳戶資產新增或更新至共用,您需要下列其中一個許可權:
- Microsoft.Authorization/roleAssignments/write - 此許可權可在 擁有者 角色中使用。
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - 此許可權可在 Blob 記憶體數據擁有者 角色中使用。
接收共享資料所需的記憶體帳戶許可權
若要對應所接收共用中的記憶體帳戶資產,您需要下列其中一個許可權:
- Microsoft.Storage/storageAccounts/write - 此許可權可在 參與者 和 擁有者 角色中使用。
- Microsoft.Storage/storageAccounts/blobServices/containers/write - 此許可權可在 參與者、 擁有者、 記憶體 Blob 數據參與者 和 記憶體 Blob 數據擁有者 角色中取得。
更新來源記憶體帳戶中的共享數據
匯報 從來源記憶體帳戶將共用檔案或共用資料夾中的數據提供給目標記憶體帳戶中的收件者以近乎即時的方式使用。 當您刪除共享資料夾內的子資料夾或檔案時,收件者將會消失。 若要刪除共享資料夾、檔案或父資料夾或容器,您必須先從來源記憶體帳戶撤銷所有共用的存取權。
存取目標記憶體帳戶中的共享數據
目標記憶體帳戶可讓收件者近乎即時地存取共用數據唯讀。 您可以將 Synapse 工作區和 Databricks 等分析工具連線到共享數據,以執行分析。 存取共享數據的成本會向目標記憶體帳戶收費。
服務限制
來源記憶體帳戶最多可支援 20 個目標,而目標記憶體帳戶最多可支援 100 個來源。 如果您需要增加限制,請連絡支持服務。
原則
此資料資源支援下列類型的原則,Microsoft Purview:
- 數據擁有者原則 - 一組原則聲明,可讓您將數據源的存取權授與使用者和群組。
- 自助式存取原則 - 可讓使用者要求存取已註冊至 Purview Microsoft數據源的原則。
- 保護原則 - 拒絕所有使用者存取以敏感度標籤的數據,但原則指定的數據除外。
Azure 記憶體帳戶上的存取原則必要條件
區域支援
- 支援所有 Microsoft Purview 區域 。
- 支援下列區域中的記憶體帳戶,而不需要額外的設定。 不過,不支援 ZRS) 帳戶 (區域備援記憶體。
- 澳大利亞中部
- 澳大利亞東部
- 澳大利亞東南部
- 巴西南部
- 加拿大中部
- 加拿大東部
- 印度中部
- 美國中部
- 東亞
- 美國東部 2
- 美國東部
- 法國中部
- 德國中西部
- 日本東部
- 日本西部
- 南韓中部
- 美國中北部
- 北歐
- 挪威東部
- 波蘭中部
- 卡達中部
- 美國中南部
- 南非北部
- 東南亞
- 印度南部
- 瑞典中部
- 瑞士北部
- 美國中西部
- 西歐
- 美國西部
- 美國西部 2
- 美國西部 3
- 阿拉伯聯合大公國北部
- 英國南部
- 英國西部
- 設定功能旗標 AllowPurviewPolicyEnforcement 之後,支援公用雲端中其他區域中的記憶體帳戶,如下一節所述。 如果在設定功能旗標 AllowPurviewPolicyEnforcement 之後建立,則支援新建立的 ZRS 記憶體帳戶。
如有需要,您可以 遵循本指南來建立新的記憶體帳戶。
針對來自 Purview 的原則設定 Azure 記憶體帳戶所在的訂用帳戶Microsoft
只有在某些區域中才需要此步驟, (請參閱前一節) 。 若要讓 Microsoft Purview 管理一或多個 Azure 儲存器帳戶的原則,請在您將部署 Azure 記憶體帳戶的訂用帳戶中執行下列 PowerShell 命令。 這些 PowerShell 命令可讓 Microsoft Purview 管理該訂用帳戶中所有 Azure 記憶體帳戶的原則。
如果您要在本機執行這些命令,請務必以系統管理員身分執行 PowerShell。 或者,您可以在下 Azure 入口網站 中使用 Azure Cloud Shell:https://shell.azure.com。
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
如果最後一個命令的輸出顯示 RegistrationState為 Registered,則您的訂用帳戶會啟用存取原則。 如果輸出正在 註冊,請等候至少 10 分鐘,然後重試命令。 除非 RegistrationState 顯示為 Registered,否則請勿繼續。
設定原則的 Microsoft Purview 帳戶
在 Purview Microsoft註冊數據源
您必須先在 Purview Studio 中註冊該數據 Microsoft資源,才能在 Microsoft Purview 中為數據資源建立原則。 您稍後會在本指南中找到與註冊數據資源相關的指示。
注意事項
Microsoft Purview 原則依賴數據資源 ARM 路徑。 如果數據資源移至新的資源群組或訂用帳戶,則必須取消註冊,然後在 Microsoft Purview 中重新註冊。
設定許可權以在數據源上啟用數據原則強制執行
註冊資源之後,但在該資源的 Purview Microsoft 建立原則之前,您必須設定許可權。 需要一組許可權,才能強制 執行數據原則。 這適用於數據源、資源群組或訂用帳戶。 若要啟用 數據原則強制執行,您必須 具有 資源的特定身分識別和存取管理 (IAM) 許可權,以及特定Microsoft許可權:
您必須在資源的 Azure Resource Manager 路徑上具有下列其中一個 IAM 角色組合,或其任何父系 (也就是使用 IAM 許可權繼承) :
- IAM 擁有者
- IAM 參與者和 IAM 使用者存取系統管理員
若要 (RBAC) 許可權設定 Azure 角色型訪問控制,請遵循 本指南。 下列螢幕快照顯示如何存取數據資源 Azure 入口網站 中的 [存取控制] 區段,以新增角色指派。
注意事項
數據資源的 IAM 擁有者 角色可以繼承自父資源群組、訂用帳戶或訂用帳戶管理群組。 檢查哪些 Microsoft Entra 使用者、群組和服務主體持有或繼承資源的 IAM 擁有者角色。
如果已啟用繼承) ,您也必須擁有集合的 Microsoft Purview 數據源 管理員角色或父集合 (。 如需詳細資訊,請參閱 管理 purview 角色指派Microsoft指南。
下列螢幕快照顯示如何在根集合層級指派 數據源系統管理員 角色。
設定 Microsoft Purview 許可權以建立、更新或刪除存取原則
若要建立、更新或刪除原則,您必須在根集合層級的 Microsoft Purview 中取得原則作者角色:
- 原則 作者 角色可以建立、更新和刪除DevOps和數據擁有者原則。
- 原則 作者 角色可以刪除自助式存取原則。
如需管理 Microsoft Purview 角色指派的詳細資訊,請參閱在 Microsoft Purview 資料對應 中建立和管理集合。
注意事項
原則作者角色必須在根集合層級設定。
此外,若要在建立或更新原則的主旨時輕鬆搜尋 Microsoft Entra 使用者或群組,您可以從取得 Microsoft Entra ID 中的目錄讀取者許可權獲益。 這是 Azure 租用戶中用戶的常見許可權。 如果沒有目錄讀取者許可權,原則作者就必須輸入數據原則主體中所包含之所有主體的完整用戶名稱或電子郵件。
設定 Microsoft Purview 許可權以發佈數據擁有者原則
如果您將 Microsoft Purview 原則 作者 和 數據源系統管理員 角色指派給組織中的不同人員,數據擁有者原則允許檢查和平衡。 數據擁有者原則生效之前, (數據源系統管理員) 必須檢閱該原則,並透過發佈來明確核准。 這不適用於 DevOps 或自助式存取原則,因為建立或更新這些原則時,會自動發佈這些原則。
若要發佈數據擁有者原則,您必須在根集合層級取得 Microsoft Purview 中的數據源管理員角色。
如需管理 Microsoft Purview 角色指派的詳細資訊,請參閱在 Microsoft Purview 資料對應 中建立和管理集合。
注意事項
若要發佈數據擁有者原則,必須在根集合層級設定數據源系統管理員角色。
將存取布建責任委派給 Microsoft Purview 中的角色
啟用資源以 強制執行數據原則之後,在根集合層級具有原則 作者 角色的任何 Microsoft Purview 使用者都可以從 Microsoft Purview 布建該數據源的存取權。
注意事項
任何Microsoft Purview 根 集合管理員 都可以將新的使用者指派給根 原則作者 角色。 任何 集合管理員 都可以將新的使用者指派給集合下的數據 源系統管理員 角色。 將擔任 Purview 集合系統管理員、 數據源管理員或原則 作者 角色Microsoft使用者最小化並仔細審查。
如果刪除具有已發佈原則的 Microsoft Purview 帳戶,這類原則將會在相依於特定數據源的一段時間內停止強制執行。 這項變更可能會影響安全性和數據存取可用性。 IAM 中的參與者和擁有者角色可以刪除 Microsoft Purview 帳戶。 您可以前往 Microsoft Purview 帳戶的 [ 存取控制 (IAM) ] 區段,然後選取 [ 角色指派],以檢查這些許可權。 您也可以使用鎖定來防止透過 Resource Manager 鎖定刪除Microsoft Purview 帳戶。
在 Microsoft Purview 中註冊數據源以強制執行數據原則
您必須先向 Microsoft Purview 註冊 Azure 記憶體資源,才能建立存取原則。 若要註冊您的資源,請遵循本指南 的必要條件 和 註冊 章節:
註冊數據源之後,您必須啟用數據原則強制執行。 這是您在數據源上建立原則之前的必要條件。 數據原則強制執行可能會影響數據的安全性,因為它會委派給管理數據源存取權的特定Microsoft Purview 角色。 請流覽本指南中與數據原則強制執行相關的安全做法: 如何啟用數據原則強制執行
一旦您的數據源將 [ 數據原則強制 執行] 選項設定為 [ 已啟用],看起來會像下列螢幕快照:
建立原則
若要建立 Azure Data Lake Storage Gen2 的存取原則,請遵循本指南:
若要建立涵蓋資源群組或 Azure 訂用帳戶內所有數據源的原則,您可以參閱 本節。
保護原則
保護訪問控制原則 (保護原則) 可讓組織自動保護跨數據源的敏感數據。 Microsoft Purview 已經掃描數據資產並識別敏感數據元素,而這項新功能可讓您使用 Microsoft Purview 資訊保護 的敏感度標籤自動限制該數據的存取。
請遵循此檔來建立保護原則:如何建立 Microsoft Purview 資訊保護 原則。
後續步驟
請遵循下列指南以深入瞭解 Microsoft Purview 和您的數據。