共用方式為


建立完全符合敏感性資訊類型/規則套件的資料

提示

如果您不是 E5 客戶,請使用 90 天Microsoft Purview 解決方案試用版來探索其他 Purview 功能如何協助貴組織管理數據安全性與合規性需求。 立即從 Microsoft Purview 合規性入口網站 試用中樞開始。 瞭解 有關註冊和試用版條款的詳細數據

適用於

您可以使用 (Microsoft Purview 合規性入口網站中的 [ 使用精確數據比對架構和 SIT 模式] 工具 ,在 EDM) SIT (SIT) 建立確切的數據比對Microsoft,也可以 手動將規則套件建立 為 XML 檔案。 您也可以使用一個方法來建立架構,稍後再使用另一個方法來編輯架構,以結合這兩種方法。

如果您不熟悉以 EDM 為基礎的 SITS 或其實作,您應該熟悉:

必要條件

執行下列文章中的步驟:

  1. 匯出源數據,以取得以精確數據比對為基礎的敏感性信息類型
  2. 建立完全資料比對型敏感性資訊類型的結構描述
  3. 雜湊並上傳精確資料比對敏感性資訊類型的敏感性資訊來源資料表
  • 無論您是要透過PowerShell使用工具或規則套件 XML 檔案建立EDM SIT,都必須具有全域管理員或合規性系統管理員許可權,才能透過UI建立、測試和部署自定義 SIT。 請參閱關於 Office 365 中的系統管理員角色

重要事項

Microsoft 建議您使用權限最少的角色。 這有助於改善貴組織的安全性。 全域管理員是高度特殊許可權的角色,只能在無法使用較低許可權角色的情況下使用。

  • 識別其中一個要作為主要元素 SIT 的內建 SIT。
    • 如果沒有任何內建 SIT 符合您所選取資料行中的數據,您就必須建立一個自定義 SIT 來執行此動作。
    • 如果您為結構描述中的主要元素資料行選取了 [忽略分隔符號] 選項,請確定您建立的自訂 SIT 會比對包含或不含所選分隔符號的資料。
    • 如果您使用內建的 SIT,請確定它會完全偵測您想要選取的字串,而不會包含任何周圍字元,或排除字串中儲存在敏感性資訊數據表中的任何有效部分。

請參閱 敏感性資訊類型實體定義建立自定義敏感性信息類型

使用精確數據比對架構和 SIT 模式工具

您可以使用此工具來建立 SIT 檔案,以協助簡化程式。

EDM SIT 是由一或多個模式所組成。 每個模式都會描述架構中的欄位組合,這些欄位將用來識別檔或電子郵件中的敏感性內容, (辨識項) 。

針對您使用的入口網站選取適當的索引標籤。 若要深入瞭解 Microsoft Purview 入口網站,請 參閱 Microsoft Purview 入口網站。 若要深入瞭解合規性入口網站,請參閱 Microsoft Purview 合規性入口網站

  1. 登入 Microsoft Purview 入口網站>資訊保護>Classifiers>EDM 分類器

    1. [新增 EDM 體驗 ] 切換為 [關閉]
  2. 選擇 [EDM 敏感性資訊類型 ] 和 [ 建立 EDM 敏感性資訊類型 ] 以開啟 [敏感性資訊類型] 設定工具。

  3. 取 [選擇現有的EDM架構 ],然後挑選您在建立 以數據相符為基礎的精確敏感性資訊類型之架構中建立的架構。 選取 新增

  4. 選擇 [下一步],然後選擇 [建立模式]

  5. 挑選 [ 信賴等級 ] 和 [ 主要] 元素。 若要深入了解信賴等級,請參閱了解敏感性資訊類型

  6. 選擇 [主要元素的敏感性資訊類型] 建立其關聯,以定義文件中要與主要元素欄位中的所有值進行比較的文字。 若要深入瞭解可用的敏感性資訊類型,請參閱 SIT 實體定義

    重要事項

    選取與您想要尋找之內容格式非常相符的 SIT。 選取符合不必要內容的 SIT,例如符合 所有 文字字串或 所有 數位的 SIT,可能會造成系統中過多的負載,而導致敏感性資訊仍未偵測。

  7. 選取您的 支援元素 並比對選項。

  8. 選擇 [完成]

  9. 如果您想要為 EDM SIT 建立其他模式,請選擇 [ 建立模式 ]。

  10. 選取 [下一步]

  11. 選擇您想要的 [建議的信賴等級] 和 [字元鄰近性]。 這會是整個EDM SIT的預設值。 (如需字元鄰近性的資訊,請參閱 了解鄰近) 。 選取 [下一步]

  12. 選擇 [下一步] 並填入 [名稱][系統管理員的描述]

    當您建立架構檔案時,數據行標頭 (數據欄位) 必須遵守下列命名需求:
    - 必須以字母開頭,而且必須包含至少三個英數位元。
    - 必須只包含英數位元。

  13. 檢閱並選擇 [提交]

編輯或刪除 SIT 模式

針對您使用的入口網站選取適當的索引標籤。 若要深入瞭解 Microsoft Purview 入口網站,請 參閱 Microsoft Purview 入口網站。 若要深入瞭解合規性入口網站,請參閱 Microsoft Purview 合規性入口網站

  1. 登入 Microsoft Purview 入口網站>資訊保護>Classifiers>EDM 分類器

    1. [新增 EDM 體驗 ] 切換為 [關閉]
  2. 選擇 [EDM 敏感性資訊類型]

  3. 挑選您想要編輯的EDM SIT。

  4. 選擇 [編輯 EDM 敏感性資訊類型][從飛出視窗刪除 EDM 敏感性資訊類型]

  5. 如需編輯程式,請參閱 使用精確數據比對架構和 SIT 模式工具

使用特定類型的資料

為了效能理由,使用可將不必要的比對數量減到最小的模式非常重要。 例如,您可以使用以正則表示式為基礎的 SIT。

\b\w*\b

這會比對任何文件或電子郵件中的每個單字或數字。 這會造成服務因符合項目而超載,並遺漏偵測到真正的符合項目。 使用更精確模式可避免這種情況。 以下是用於識別一些常見資料類型正確設定的一些建議。

Email 位址:Email 位址很容易識別,但由於這些位址在敏感性內容中很常見,因此如果作為主要字段,可能會在系統中造成顯著的負載。 僅使用電子郵件新增程式作為次要辨識項。 如果必須使用它們做為主要辨識項,當您定義自定義 SIT 時,請使用邏輯來排除電子郵件位址做為 FromTo 電子郵件欄位的專案。 此外,使用邏輯從您公司的網域排除電子郵件位址,以減少需要比對的不必要字串數目。

電話號碼:電話號碼可以有許多不同的格式,包括或排除國家/地區前綴、區碼和分隔符。 若要減少誤判,同時將負載保持在最小值,請只將它們當做次要元素使用,排除所有可能的分隔符,例如括號和虛線,並且只在敏感數據表中包含一律存在於電話號碼中的元件。

人員 的名稱:如果使用以正則表達式為基礎的 SIT 做為此 EDM 類型的分類元素,請勿使用人員的名稱作為主要元素,因為它們很難與一般字組區別。

如果您必須使用難以使用特定模式識別的主要元素, (例如專案程式代碼名稱) ,這可能會產生大量要處理的相符專案,請確定您在 SIT 中包含關鍵詞,作為 EDM 類型的分類元素。 例如,如果使用專案程式代碼名稱也是一般字組,您可以在您用來做為EDM類型的分類元素的SIT中,將該字 project 當做接近專案名稱正則表達式模式的必要額外辨識項使用。 或者,您可以考慮使用以一般字典為基礎的 SIT 作為 EDM SIT 的分類元素。

嘗試比對數字字串時,請指定允許的數字範圍,例如數字數目或起始數字 (如果已知)。 如果您需要比對相對彈性的數字範圍,您可以在基底 SIT 中使用關鍵字來減少相符項目的數量。 例如,如果嘗試比對由 7 到 11 位數字組成的帳戶號碼,請將 accountcustomeracct. 新增到 SIT 做為必要的額外辨識項。 這可降低不必要的相符專案,而導致超過可處理的EDM相符專案限制的可能性。

如果您需要做為主要元素的字段遵循可能導致大量相符項目的簡單模式,而且您無法在 SIT 中新增關鍵詞作為其他辨識項,則可以改為要求該模式出現次數下限。 例如,您可以使用下列方式定義的自定義 SIT 來偵測至少 29 個其他五位數的數位,其中包含可能要在敏感性內容中比對的五位數數位:

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

在某些情況下,您可能必須識別特定帳戶或記錄識別號碼 (其因歷史原因而遵循標準化模式)。 例如,Medical Record Numbers 可以由相同組織內許多不同的字母和數字排列組成。 雖然一開始可能難以識別某個模式,但更仔細的檢查往往可讓您縮小描述所有有效值的模式,而不會導致太多數量的無效相符項目。 例如,可能會偵測到「所有 MRN 的長度至少為七個字元、其中至少有兩個數字,且其中若有任何字母,則會從一開始」。 根據這類準則建立規則運算式,應該允許您在擷取所有需要的值時,將不必要的相符項目降至最低,而進一步的分析可能會透過定義描述不同格式的不同模式而提高精確度。

手動建立規則套件

此程序說明如何使用 Unicode 編碼) 建立稱為規則套件 (的 XML 格式檔案,然後使用安全性 & 合規性 PowerShell Cmdlet 將它上傳至 Microsoft Purview。

注意事項

如果您對應的 SIT 可以偵測到多字確切辨識項,則手動建立的規則套件中定義的次要元素可以對應到 SIT。 例如,名稱 John Smith 將不會當作次要元素比對,因為如果該確切辨識項欄位未對應至可偵測該模式的 SIT,我們會將分別在內容中找到的 JohnSmith 與在其中一個欄位中上傳的 John Smith 一詞進行比較。

Microsoft 365 租用戶中的規則套件上限為 10 個。 因為規則套件可以包含任意數目的敏感性資訊類型,所以每次您想要使用此方法定義新的 SIT 時,都可以避免建立新的規則套件,而改為導出現有的規則套件,並將敏感性資訊類型新增至 XML,然後再重新上傳。

  1. 以 XML 格式建立規則套件 (使用 Unicode 編碼方式),類似下列範例。 (您可以複製、修改及使用我們的範例)。

    當您設定規則套件時,請務必正確參照 .csv、.tsv 或垂直線 (|) 分隔的敏感性資訊來源資料表檔案和 edm.xml 結構描述檔案。 您可以複製、修改及使用我們的範例。 在此範例 xml 中,必須自訂下列欄位,才能建立您的 EDM 敏感性類型:

    • RulePack id 與 ExactMatch id:使用 New-GUID 產生 GUID。

    • 資料存放區:此欄位會指定要使用的 EDM 查閱資料存放區。 您要提供已設定之 EDM 結構描述的資料來源名稱。

    • idMatch:此欄位會指向 EDM 的主要元素。

    • 相符項目:指定要在精確查閱中使用的欄位。 您要在資料存放區的 EDM 結構描述中,提供可搜尋的欄位名稱。

    • 分類:此欄位會指定觸發EDM查閱的SIT比對。 您可以使用現有內建或自訂 SIT 的名稱或 GUID。

    注意事項

    請注意,符合所提供之 SIT 的任何字串都會經過雜湊,並與敏感性資訊來源資料表中的每個項目進行比較。 為避免針對分類元素選擇自訂 SIT 所造成的效能問題,請勿使用符合大量內容百分比的 SIT。 例如,符合「任何數字」或「任何五個字母的字」的 SIT。 您可以新增支援關鍵字,或在自訂分類 SIT 的定義中加入格式來區別它。

    • 相符項目:此欄位會指向 idMatch 鄰近位置的其他辨識項。

    • 相符項目:您要在資料存放區的 EDM 結構描述中,提供任何欄位名稱。

    • Resource idRef:此區段會在多個地區設定中,指定敏感性類型的名稱和描述。

      • 您要提供 ExactMatch ID 的 GUID。
      • 名稱 & 描述:視需要自定義。
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="eb553734-8306-44b4-9ad5-c388ad970528" />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. 透過執行下列 PowerShell 命令來上傳規則套件:

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

注意事項

規則套件檔案的語法與其他敏感性資訊類型的語法相同。 如需規則套件檔案語法和其他組態選項的完整詳細數據,以及使用PowerShell修改和刪除敏感性資訊類型的指示,請 使用PowerShell建立自定義 SIT

下一步