Microsoft Purview 資料對應 中的分類最佳做法
Microsoft Purview 資料對應 中的數據分類是將唯一邏輯標籤或類別指派給數據資產來分類數據資產的一種方式。 分類是以數據的商務內容為基礎。 例如,您可以依 Passport Number、 Driver's License Number、 Credit Card Number、 SWIFT Code、 Person's Name 等分類資產。 若要深入了解分類本身,請參閱我們的 分類文章。
本文說明當您將數據資產分類時採用的最佳做法,讓掃描更有效率,而且您有關於整個數據資產的最完整資訊。
掃描規則集
藉由使用 掃描規則集,您可以設定應該套用至數據源之特定掃描的相關分類。 選取相關的系統分類,或如果您已針對要掃描的數據建立自定義分類,請選取自定義分類。
例如,在下圖中,只會針對您要掃描的數據源套用特定選取的系統和自定義分類 (例如財務數據) 。
批注管理
當您決定要套用哪些分類時,建議您:
移至 [數據對應>批註管理>分類] 窗格。
檢閱要套用至您要掃描之數據資產的可用系統分類。 系統分類的正式名稱具有 MICROSOFT 前置詞。
視需要建立自定義分類。 選取 [ 自定義] 索引 標籤,然後選取 [+ 新增]。 如需建立自定義分類的詳細資訊, 請參閱自定義分類一文。
為您在上一個步驟中建立的自定義分類建立分類規則。 移至 數據對應>批註管理>分類規則。 在這裡,您可以為您在上一個步驟中建立的自定義分類名稱建立分類規則。
自訂分類
只有在可用的系統分類不符合您的需求時,才建立自定義分類。
針對自定義分類的 名稱 ,最好使用命名空間慣例 (例如 <公司名稱>。<業務單位>。<自訂分類名稱>) 。
例如,針對虛構公司 Contoso 的自定義EMPLOYEE_ID分類,自定義分類的名稱會 CONTOSO.HR。EMPLOYEE_ID,易記名稱會以 HR 的方式儲存在系統中。員工標識碼。
當您建立和設定自訂分類的分類規則時,請執行下列動作:
選取要建立分類規則的適當分類名稱。
Microsoft Purview 資料對應 支援下列兩種建立自定義分類規則的方法:
使用 正規表示式 方法:
設定要分類之數據的 regex 模式。 請確定 regex 模式的泛型足以滿足所分類的數據。
Microsoft Purview 也提供一項功能來產生建議的 regex 模式。 上傳範例數據文件之後,請選取其中一個建議的模式,然後選取 [ 新增至模式 ] 以使用建議的數據和數據行模式。 您可以修改建議的模式,也可以輸入自己的模式,而不需要上傳檔案。
您也可以設定要分類之數據行的數據行名稱模式,以將誤判降至最低。
設定符合數據模式的數據可接受的最 小比對閾值 參數,以套用分類。 閾值可以是從 1% 到 100%。 建議將至少 60% 的值作為臨界值,以避免誤判。 不過,您可以視需要針對特定分類案例進行設定。 例如,如果您想要偵測並套用數據中任何值的分類符合模式,則閾值可能低至 1%。
如果將多個數據模式新增至分類規則,則會自動停用設定最小比對規則的選項。
使用 測試分類規則 ,並使用範例數據進行測試,以確認分類規則如預期般運作。 請確定在範例數據 (例如,在 .csv 檔案中) 至少有三個數據行存在,包括要套用分類的數據行。 如果測試成功,您應該會在數據行上看到分類標籤,如下圖所示:
使用 Dictionary 方法:
您可以使用 Dictionary 方法來容納列舉數據,或是可以使用可能值的字典清單。
此方法支援 .csv 和 .tsv 檔案,檔案大小限製為 30 MB (MB) 。
自訂分類原型
“threshold” 參數在正則表示式中的運作方式
請考慮下圖中的範例源數據。 有五個數據行,自定義分類規則應該套用至數據模式 N{Digit}{Digit}{Digit}AN 的數據行Sample_col1、Sample_col2和Sample_col3。
自訂分類名為 NDDDAN。
數據模式) 的分類規則 (regex 為 ^N[0-9]{3}AN$。
閾值會針對 “^N[0-9]{3}AN$” 模式計算,如下圖所示:
如果您的閾值為55%,則只會分類 Sample_col1 和 Sample_col2 的數據行。 Sample_col3 不會分類,因為它不符合 55% 閾值準則。
如何同時使用數據和數據行模式
針對指定的範例數據,其中數據行 B 和數據行 C 都有類似的數據模式,您可以根據數據模式 “^P[0-9]{3}[A-Z]{2}$” 對數據行 B 進行分類。
使用數據行模式與數據模式,以確保只分類 產品標識 符數據行。
注意事項
數據行模式會使用數據模式驗證為 AND 條件。
使用 測試分類規則 ,並使用範例數據進行測試,以確認分類規則如預期般運作。
如何使用多個數據行模式
如果有多個數據行模式要分類為相同的分類規則,請使用管道 (|) 以字元分隔的數據行名稱。 例如,針對 [產品標識符]、 [Product_ID]、[ ProductID] 等數據行,撰寫數據行模式,如下圖所示:
如需詳細資訊,請 參閱 regex 替代建構。
分類考慮
以下是定義分類時要牢記在心的一些考慮:
若要在掃描之前決定要套用至資產的分類,請考慮如何使用您的分類。 不必要的分類標籤看起來可能很雜訊,甚至會誤導數據取用者。 您可以使用分類來:
- 描述存在於正在掃描之數據資產或架構中的數據本質。 換句話說,分類應該可讓客戶在搜尋目錄時,從分類標籤數據資產或架構的內容。
- 設定優先順序並開發計劃,以達到組織的安全性和合規性需求。
- 描述數據準備程式中的階段, (原始區域、登陸區域等) ,並將分類指派給特定資產,以標示程式中的階段。
您可以在掃描規則中包含相關的分類,在資產或數據行層級自動指派分類,也可以在將元數據內嵌至 Microsoft Purview 資料對應 之後手動指派分類。
如需自動指派,請參閱 Microsoft Purview 資料對應 的支持數據存放區。
在 Microsoft Purview 資料對應 中掃描數據源之前,請務必先瞭解您的數據,併為其設定適當的掃描規則集 (例如,選取相關的系統分類、自定義分類或兩個) 的組合,因為它可能會影響掃描效能。 如需詳細資訊,請參閱 Microsoft Purview 資料對應 中支持的分類。
Microsoft Purview 掃描器會針對深度掃描套用數據取樣規則, (系統和自定義分類的分類) 。 取樣規則是以數據源的類型為基礎。 如需詳細資訊,請參閱 Purview 中支持的數據源和文件類型中的一節Microsoft。
注意事項
相異數據閾值:這是掃描器在數據行上執行數據模式之前,必須在數據行中找到的相異數據值總數。 相異數據閾值與模式比對無關,但這是模式比對的必要條件。 系統分類規則要求每個數據行中至少要有 8 個不同的值,才能受限於分類。 系統需要此值,以確保數據行包含足夠的數據,讓掃描器能夠正確分類。 例如,包含多個數據列且全部包含值 1 的數據行將不會分類。 包含一個具有值之數據列且其餘數據列具有 Null 值的數據行也不會被分類。 如果您指定多個模式,此值會套用至每個模式。
取樣規則也適用於資源集。 如需詳細資訊,請參閱 Microsoft Purview 資料對應 中支持的數據源和檔類型中的一節。
使用自訂分類規則,無法在檔案類型資產上套用自定義分類。 此類型別的分類只能手動套用。
自訂分類不包含在任何預設掃描規則中。 因此,如果需要自動指派自定義分類,您必須部署並使用包含自定義分類的自定義掃描規則來執行掃描。
如果您從 Microsoft Purview 治理入口網站手動套用分類,這類分類會保留在後續掃描中。
如果先前偵測到資產的任何分類,即使分類規則不適用,後續掃描也不會從資產中移除任何分類。
針對 加密的源 數據資產,Microsoft Purview 只會挑選檔名、完整名稱、結構化檔類型的架構詳細數據,以及資料庫數據表。 若要讓分類能夠運作,請先解密加密的數據,再執行掃描。