文档指纹识别

文档指纹是一项Microsoft Purview 数据丢失防护 (DLP) 功能,可将标准表单转换为敏感信息类型 (SIT) ,可在 DLP 策略的规则中使用。

文档指纹识别通过识别整个组织中使用的标准表单,可以更轻松地保护敏感信息。 本文介绍文档指纹识别背后的概念,以及如何使用用户界面或使用 PowerShell 创建文档指纹。

文档指纹包括以下优势:

  • DLP 可以在 Exchange、SharePoint、OneDrive、Teams 和设备中使用文档指纹作为检测方法。
  • 可以通过 Microsoft Purview 用户界面管理文档指纹功能。
  • 支持部分匹配
  • 支持完全匹配
  • 提高了检测准确性
  • 支持使用多种语言进行检测,包括中文、日语和韩语等双字节语言。

重要

如果你是 E5 客户,我们建议更新现有指纹,以利用完整的文档指纹功能集。 如果你是 E3 客户,我们建议升级到 E5 许可证。 如果选择不,则无法在 2023 年 4 月之后修改现有指纹或创建新指纹。

文档指纹识别的基本方案

如前所述,文档指纹功能将标准形式的信息转换为敏感信息类型 (SIT) ,可在 DLP 策略的规则中使用。 例如,您可以基于空白父模板来创建文档指纹,然后创建 DLP 策略,用于检测和阻止所有包含敏感内容的传出父模板。 (可选)可以设置 策略提示 ,以通知发件人他们可能正在发送敏感信息,并且发件人应验证收件人是否有资格接收专利。 此过程与组织中使用的任何基于文本的表单一起使用。 可以上传的其他表单示例包括:

  • 政府表单
  • 符合《健康保险可携性与责任法案》 (HIPAA) 的表单
  • 人力资源部的员工信息表单
  • 组织专门创建的自定义表单

理想情况下,贵组织已经创建使用特定表单传输敏感信息的业务实践。 若要启用检测,请上传要转换为文档指纹的空窗体。 接下来,设置相应的策略。 完成这些步骤后,DLP 将检测出站邮件中与该指纹匹配的任何文档。

文档指纹的工作原理

你可能知道文档没有实际指纹,但名称有助于解释该功能。 与人的指纹具有唯一模式一样,文档具有独特的单词模式。 上传文件时,DLP 会识别文档中的唯一字模式,基于该模式创建文档指纹,并使用该文档指纹来检测包含相同模式的出站文档。 这就是为什么上传表单或模板会创建最有效的文档指纹类型的原因。 填写表单的每个人都使用相同的原始字词集,然后将自己的字词添加到文档中。 如果出站文档不受密码保护,并且包含原始表单中的所有文本,DLP 可以确定文档是否与文档指纹匹配。

文档指纹图示。

专利模板包含空白字段 “专利标题”、“ 发明者”和 “说明”,以及每个字段的说明(即单词模式)。 上传原始专利模板时,它采用受支持的文件类型之一和纯文本格式。 DLP 将此单词模式转换为文档指纹,该指纹是一个小型 Unicode XML 文件,其中包含表示原始文本的唯一哈希值。 指纹在 Active Directory 中保存为数据分类。 (作为安全措施,原始文档本身不存储在服务上;仅存储哈希值。无法从哈希值重新构造原始文档。) 然后,专利指纹将成为可与 DLP 策略关联的 SIT。 将指纹与 DLP 策略关联后,DLP 会检测包含与专利指纹匹配的内容的任何出站电子邮件,并根据组织的策略对其进行处理。

例如,如果设置了阻止普通员工发送包含专利的传出消息的 DLP 策略,DLP 将使用专利指纹来检测专利并阻止这些电子邮件。 或者,你可能希望让法律部门能够向其他组织发送专利,因为它有这样做的业务需求。 若要允许特定部门发送敏感信息,请在 DLP 策略中为这些部门创建例外。 或者,可以允许他们用业务理由替代策略提示。

重要

嵌入文档中的文本不被视为指纹创建。 需要提供不包含嵌入文档的示例模板文件。

支持的文件类型

文档指纹识别支持邮件流规则中支持的相同文件类型 (也称为传输规则) 。 有关受支持的文件类型的列表,请参阅邮件流规则内容检查支持的文件类型。 一个关于文件类型的快速说明:邮件流规则或文档指纹都不支持 .dotx 文件类型,它是Microsoft Word中的模板文件。 当你在此文档指纹识别文章和其他文档指纹识别文章中看到“template”一词时,它指的是你作为标准表单建立的文档,而不是模板文件类型。

文档指纹的限制

在以下情况下,文档指纹不会检测敏感信息:

  • 密码保护的文件
  • 仅包含图像的文件
  • 不包含用于创建文档指纹的原始表单中所有文本的文档
  • 大于 4 MB 的文件

注意

若要对设备使用文档指纹,必须启用 高级分类扫描和保护

指纹存储在单独的规则包中。 此规则包的最大大小限制为 1(共 150 KB)。 根据此限制,可以为每个租户创建大约 50 个指纹。

注意

用于创建指纹的模板应至少包含 4,096 个字符。 指纹模板支持的提取文本长度必须介于 4,096 到 204,800 个字符之间。

以下示例演示基于专利模板创建文档指纹时会发生什么情况。 但是,可以使用任何窗体作为创建文档指纹的基础。

示例:创建与专利模板的文档指纹匹配的专利文档

为正在使用的门户选择相应的选项卡。 若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户

  1. 在 Microsoft Purview 门户中,导航到 数据丢失防护>分类器>敏感信息类型
  2. “敏感信息类型 ”页上,选择“ + 创建基于指纹的 SIT”。
  3. 输入新 SIT 的名称和说明。
  4. 上传要用作指纹模板的文件。
  5. 可选:调整每个置信度级别的要求。 (有关详细信息,请参阅 部分匹配精确匹配。)
  6. 选择“下一步”。
  7. 查看设置,然后选择“ 创建”。
  8. 显示确认页时,选择“ 完成”。

与专利模板的文档指纹匹配的专利文档的 PowerShell 示例

>> $Patent_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\patent.docx'))

>> New-DlpSensitiveInformationType -Name "Patent SIT" -FileData $Patent_Form  -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Contoso Patent Template"

部分匹配

若要配置文档指纹的部分匹配,请在配置置信度时,选择 “低”、“ 中”“高”,并指定文件中的文本量必须与指纹匹配的百分比介于 30% 到 90% 之间。

高置信度返回最少的误报,但可能会导致更多的误报。 低置信度或中等置信度返回更多的误报,但很少到零的误报。

  • 置信度低:匹配项包含的误报最少,但误报最多。 低置信度返回所有低置信度、中等置信度和高置信度匹配项。
  • 中等置信度:匹配项包含误报和假负的平均数目。 中等置信度返回所有中等和高置信度匹配项。
  • 高置信度:匹配项包含的误报最少,但误报最多。

完全匹配

若要配置文档指纹的完全匹配,请选择“ 精确 ”作为高置信度级别的值。 将高置信度设置为 Exact 时,仅检测到与指纹文本完全相同的文件。 如果文件甚至与指纹有细微的偏差,则不会检测到它。

已在使用指纹 SCT?

这些指纹的现有指纹和策略/规则应继续工作。 如果不想使用最新的指纹功能,则无需执行任何操作。

如果你有 E5 许可证并想要使用最新的指纹功能,则有 2 种选择:

注意

不支持使用已存在指纹的模板创建新指纹。

使用 Microsoft Purview 使用指纹 SIT 创建新策略

为正在使用的门户选择相应的选项卡。 若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户

  1. 在Microsoft Purview 合规门户中,导航到“数据丢失防护>策略”,然后选择“+ 创建策略”。
  2. 对于 “类别 ”,选择“ 自定义 ”,对于 “法规 ”,请选择“ 自定义策略”。
  3. 选择“下一步”。
  4. 为策略命名,然后提供说明>
  5. “分配管理单元 ”页上,选择“ 下一步”。
  6. 选择要应用策略的位置,然后选择“ 下一步”。
  7. “定义策略设置” 页上,选择“ 创建或自定义高级 DLP 规则 ”,然后选择“ 下一步”。
  8. 选择“ + 创建规则”。
  9. 为规则提供名称和说明。
  10. “条件” 下,选择 “添加条件>内容包含”。
  11. 为新的 DLP 规则集提供 组名称>“添加>敏感信息类型”。
  12. 搜索并选择指纹 SIT >添加的名称。
  13. 完成规则创建工具的其余部分以配置规则。
  14. 选择“保存”。
  15. 选择“下一步”。
  16. 选择“ 在模拟模式下运行策略 ”,然后选择“ 下一步”。
  17. 选择 “提交 ”,然后选择“ 完成”。

使用 PowerShell 基于文档指纹创建自定义敏感信息类型

目前,只能在 安全性 & 合规性 PowerShell 中创建文档指纹。

DLP 使用敏感信息类型 (SIT) 来检测敏感内容。 若要基于文档指纹创建自定义 SIT,请使用 New-DlpSensitiveInformationType cmdlet。 以下示例基于文件 C:\My Documents\Contoso Customer Form.docx 创建名为“Contoso Customer Confidential”的新文档指纹。

$Employee_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Customer Form.docx'))

New-DlpSensitiveInformationType -Name "Contoso Customer Confidential" -FileData $Employee_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Message contains Contoso customer information."

最后,将“Contoso 客户机密”敏感信息类型添加到Microsoft Purview 合规门户中的 DLP 策略。 本示例将规则添加到名为“ConfidentialPolicy”的现有 DLP 策略。

New-DlpComplianceRule -Name "ContosoConfidentialRule" -Policy "ConfidentialPolicy" -ContentContainsSensitiveInformation @{Name="Contoso Customer Confidential"} -BlockAccess $True

还可以在 Exchange 的邮件流规则中使用指纹 SIT,如以下示例所示。 若要运行此命令,首先需要连接到 Exchange PowerShell。 另请注意,SIT 与 Exchange 管理中心同步需要一段时间。

New-TransportRule -Name "Notify :External Recipient Contoso confidential" -NotifySender NotifyOnly -Mode Enforce -SentToScope NotInOrganization -MessageContainsDataClassification @{Name=" Contoso Customer Confidential"}

DLP 现在检测与 Contoso 客户 Form.docx 文档指纹匹配的文档。

有关语法和参数信息,请参阅:

编辑、测试或删除文档指纹

若要通过用户界面执行此操作,请打开要编辑、测试或删除的指纹 SIT,然后选择相应的图标。

若要通过 PowerShell 执行此操作,请运行以下命令:

编辑文档指纹

>> Set-DlpSensitiveInformationType -Name "Fingerprint SIT" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"

测试文档指纹

>> $r = Test-DataClassification -TextToClassify "Credit card information Visa: 4485 3647 3952 7352. Patient Identifier or SSN: 452-12-1232"
>> $r.ClassificationResults

删除文档指纹

>> Remove-DlpSensitiveInformationType "Fingerprint SIT"

通过用户界面使用指纹 SIT 迁移新策略

  1. 导航到 “数据分类>分类器>”“敏感信息类型”。
  2. 打开包含要迁移的指纹的 SIT。
  3. 选择 “编辑”。
  4. 再次上传同一指纹文件。
  5. 查看指纹设置 >“完成”。

使用 PowerShell 迁移指纹

输入以下命令:

Set-DlpSensitiveInformationType -Name "Old Fingerprint" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"