Microsoft Purview 中的自定義分類
本文說明如何建立自定義分類,以在您的數據資產中定義組織唯一的數據類型。 它也描述如何建立自定義分類規則,讓您在整個數據資產中尋找指定的數據。
重要事項
若要建立自定義分類,您需要網域或集合的數據編 者 或 數據源系統管理員 許可權。 任何集合層級的許可權都已足夠。 如需許可權的詳細資訊,請 參閱Microsoft Purview 數據控管許可權。
默認系統分類
Microsoft Purview 資料對應 提供一組大型的默認系統分類,這些分類代表您可能在數據資產中擁有的一般個人資料類型。 如需可用系統分類的完整清單,請參閱: Microsoft Purview 中支援的分類。
如果任何預設分類不符合您的需求,您也可以建立自定義分類。
注意事項
- 我們 的數據取樣規則 同時套用至系統和自定義分類。
- 自定義分類僅適用於 SQL 和 CosmosDB 等結構化數據源,以及 CSV、JSON 和 Parquet 等結構化檔類型。 自定義分類不會套用至非結構化數據檔類型,例如 DOC、PDF 和 XLSX。
建立自定義分類的步驟
若要建立自定義分類,請遵循下列步驟:
您需要任何集合的數據編者或數據源系統管理員權限,才能建立自定義分類。
在 Microsoft Purview 入口網站中,開啟 [數據對應 ] 解決方案。
選取 [批注管理] 選取 [分類]。
選 取 [+ 新增]。
[ 新增分類] 窗格隨即開啟,您可以在其中提供分類名稱和描述。 最好使用名稱間距慣例,例如 your company name.classification name
。
Microsoft系統分類會分組在保留 MICROSOFT.
命名空間下。 例如 MICROSOFT。政府。我們。SOCIAL_SECURITY_NUMBER。
分類的名稱必須以字母開頭,後面接著字母、數位和句號 (.) 或底線字元序列。 當您輸入時,UX 會自動產生易記名稱。 當您將此易記名稱套用至目錄中的資產時,使用者會看到這個易記名稱。
若要讓名稱保持簡短,系統會根據下列邏輯建立易記名稱:
除了命名空間的最後兩個區段,全部都會修剪。
大小寫會進行調整,以便將每個單字的第一個字母大寫。
所有底線 (_) 都会取代为空格。
例如,如果您將分類命名 為contoso.hr.employee_ID,易記名稱會以 Hr.Employee 識別符的方式儲存在系統中。
選取 [確定],您的新分類會新增至自 定義 分類清單。
選取清單中的分類會開啟分類詳細數據頁面。 在這裡,您會找到有關分類的所有詳細數據。
這些詳細數據包括有多少個實例的計數、正式名稱、任何) (相關聯的分類規則,以及擁有者名稱。
自訂分類規則
數據對應提供一組預設分類規則,掃描器會使用這些規則來自動偵測特定數據類型。 您也可以新增自己的自定義分類規則,以偵測您可能有興趣在數據資產中尋找的其他數據類型。 當您嘗試在數據資產中尋找數據時,這項功能可能會很強大。
注意事項
只有英文才支援自定義分類規則。
舉例來說,假設名為 Contoso 的公司具有全公司標準化的員工標識符,其字組為 “Employee”,後面接著 GUID 來建立 EMPLOYEE{GUID}。 例如,員工標識碼的一個實例看起來像 。EMPLOYEE9c55c474-9996-420c-a285-0d0fc23f1f55
Contoso 可以藉由建立自定義分類規則,設定掃描系統來尋找這些標識碼的實例。 他們可以提供符合資料模式的正規表示式,在此案例中為 \^Employee\[A-Za-z0-9\]{8}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{4}-\[A-Za-z0-9\]{12}\$
。 或者,如果數據通常位於其知道名稱的數據行中,例如 Employee_ID 或 EmployeeID,則可以新增數據行模式正則表示式,讓掃描更加精確。 範例 regex 為 Employee_ID|EmployeeID。
掃描系統接著可以使用此規則來檢查數據行中的實際數據,以及嘗試識別找到員工標識元模式之每個實例的數據行名稱。
建立自定義分類規則的步驟
建立遵循上一節指示的自定義分類。 您會在分類規則組態中新增此自定義分類,以便系統在數據行中找到相符專案時套用它。
在 Microsoft Purview 入口網站中,開啟 [數據對應 ] 解決方案。
在 [批注管理] 下,選取 [ 分類規則] 區段。
選取 [新增]。
[ 新增分類規則] 對話框隨即開啟。 填入欄位,並決定是否要建立 正規表示式規則 或 字典規則。
欄位 描述 名稱 此為必要動作。 最大值為100個字元。 描述 選用。 最大值為 256 個字元。 分類名稱 此為必要動作。 從下拉式清單中選取分類的名稱,以告知掃描器在找到相符專案時套用它。 狀態 此為必要動作。 選項已啟用或停用。 [已啟用] 是預設值。
建立正則表達式規則
重要事項
自訂分類中的正則表示式不區分大小寫。
如果建立正則表示式規則,您會看到下列畫面。 您可以選擇性地上傳檔案,以用來 為規則產生建議的 regex 模式 。 僅支援英文語言規則。
如果您決定產生建議的 regex 模式,請在上傳檔案之後,選取其中一個建議的模式,然後選取 [新增至模式 ] 以使用建議的數據和數據行模式。 您可以調整建議的模式,也可以輸入自己的模式,而不需要上傳檔案。
欄位 描述 數據模式 選用。 正則表示式,表示儲存在數據欄位中的數據。 限制很大。 在上一個範例中,數據模式會測試員工標識碼的字詞 Employee{GUID}
。數據行模式 選用。 正則表示式,表示您想要比對的數據行名稱。 限制很大。 在 [數據模式 ] 下,您可以使用 [最小比對閾值 ] 來設定數據行中相異數據值相符專案的最小百分比,掃描儀必須找到該百分比才能套用分類。 建議的值為 60%。 如果您指定多個數據模式,則會停用此設定,並將值固定為 60%。
注意事項
最小比對閾值必須至少為1%。
您現在可以驗證規則並 加以建立 。
完成建立程式之前,請先測試分類規則,以驗證它是否會將標籤套用至您的資產。 規則中的分類會套用至上傳的範例數據,就像在掃描中一樣。 這表示所有系統分類和自定義分類都會與檔案中的數據相符。
輸入檔可能包含 CSV、PSV、SSV、TSV) 、JSON 或 XML 內容 (分隔的檔案。 內容會根據輸入檔的擴展名進行剖析。 分隔數據可能具有符合任何所述類型的擴展名。 例如,TSV 數據可以存在於名為 MySampleData.csv 的檔案中。 分隔的內容也必須至少有三個數據行。
建立字典規則
如果建立字典規則,您會看到下列畫面。 上傳檔案,其中包含您要在單一數據行中建立之分類的所有可能值。 僅支援英文語言規則。
產生字典之後,您可以調整最小比對閾值並提交規則。
編輯或刪除自定義分類
若要更新或編輯自定義分類,請遵循下列步驟:
在 Microsoft Purview 入口網站中,開啟 [數據對應 ] 解決方案。
在 [批注管理] 底 下,選取 [分類]。
選取 [ 自定義] 索引 標籤。
選取您要編輯的分類,然後選取 [ 編輯] 按鈕。
現在可以編輯此自定義分類的描述。 當您完成儲存變更時,請選取 [ 確定 ] 按鈕。
若要刪除自訂分類:
- 開啟 [數據對應],然後選取 [ 分類] 之後,選取 [ 自定義] 索引 標籤。
- 選取您要刪除的分類,或您想要刪除的多個分類,然後選取 [ 刪除 ] 按鈕。
您也可以編輯或刪除分類本身內的分類。 只要選取您的分類,然後選取頂端功能表中的 [ 編輯 ] 或 [ 刪除 ] 按鈕即可。
啟用或停用分類規則
在您的 Microsoft Purview 帳戶中,選取 [數據對應],然後選取 [ 分類規則]。
選取 [ 自定義] 索引 標籤。
您可以檢視資料表中的 [ 狀態 ] 資料行,以檢查分類規則的目前狀態。
選取您要啟用或停用的分類規則或多個分類規則。
選取頂端選單中的 [ 啟用 ] 或 [ 停用 ] 按鈕。
您也可以在編輯規則時更新規則的狀態。
編輯或刪除分類規則
若要更新或編輯自訂分類規則,請遵循下列步驟:
在您的 Microsoft Purview 帳戶中,選取 [數據對應],然後選取 [ 分類規則]。
選取 [ 自定義] 索引 標籤。
選取您要編輯的分類規則,然後選取 [ 編輯] 按鈕。
現在您可以編輯狀態、描述和相關聯的分類規則。
選取 [ 繼續] 按鈕。
您可以上傳正則表達式或字典規則的新檔案以進行比對,並更新比對臨界值和數據行模式比對。
選取 [套用] 以儲存變更。 必須使用新規則重新執行掃描,才能將變更套用到您的資產。
若要刪除自訂分類:
開啟 [數據對應],然後選取 [ 分類規則] 之後,選取 [ 自定義] 索引 標籤。
選取您要刪除的分類規則,然後選取 [ 刪除] 按鈕。
後續步驟
現在您已建立分類規則,可以將其新增至掃描規則集,讓掃描在掃描時使用規則。 如需詳細資訊,請 參閱建立掃描規則集。