文档指纹识别
文档指纹是一项Microsoft Purview 数据丢失防护 (DLP) 功能,可将标准表单转换为敏感信息类型 (SIT) ,可在 DLP 策略的规则中使用。
文档指纹识别通过识别整个组织中使用的标准表单,可以更轻松地保护敏感信息。 本文介绍文档指纹识别背后的概念,以及如何使用用户界面或使用 PowerShell 创建文档指纹。
文档指纹包括以下优势:
- DLP 可以在 Exchange、SharePoint、OneDrive、Teams 和设备中使用文档指纹作为检测方法。
- 可以通过 Microsoft Purview 用户界面管理文档指纹功能。
- 支持部分匹配。
- 支持完全匹配。
- 提高了检测准确性
- 支持使用多种语言进行检测,包括中文、日语和韩语等双字节语言。
重要
如果你是 E5 客户,我们建议更新现有指纹,以利用完整的文档指纹功能集。 如果你是 E3 客户,我们建议升级到 E5 许可证。 如果选择不,则无法在 2023 年 4 月之后修改现有指纹或创建新指纹。
文档指纹识别的基本方案
如前所述,文档指纹功能将标准形式的信息转换为敏感信息类型 (SIT) ,可在 DLP 策略的规则中使用。 例如,您可以基于空白父模板来创建文档指纹,然后创建 DLP 策略,用于检测和阻止所有包含敏感内容的传出父模板。 (可选)可以设置 策略提示 ,以通知发件人他们可能正在发送敏感信息,并且发件人应验证收件人是否有资格接收专利。 此过程与组织中使用的任何基于文本的表单一起使用。 可以上传的其他表单示例包括:
- 政府表单
- 符合《健康保险可携性与责任法案》 (HIPAA) 的表单
- 人力资源部的员工信息表单
- 组织专门创建的自定义表单
理想情况下,贵组织已经创建使用特定表单传输敏感信息的业务实践。 若要启用检测,请上传要转换为文档指纹的空窗体。 接下来,设置相应的策略。 完成这些步骤后,DLP 将检测出站邮件中与该指纹匹配的任何文档。
文档指纹的工作原理
你可能知道文档没有实际指纹,但名称有助于解释该功能。 与人的指纹具有唯一模式一样,文档具有独特的单词模式。 上传文件时,DLP 会识别文档中的唯一字模式,基于该模式创建文档指纹,并使用该文档指纹来检测包含相同模式的出站文档。 这就是为什么上传表单或模板会创建最有效的文档指纹类型的原因。 填写表单的每个人都使用相同的原始字词集,然后将自己的字词添加到文档中。 如果出站文档不受密码保护,并且包含原始表单中的所有文本,DLP 可以确定文档是否与文档指纹匹配。
专利模板包含空白字段 “专利标题”、“ 发明者”和 “说明”,以及每个字段的说明(即单词模式)。 上传原始专利模板时,它采用受支持的文件类型之一和纯文本格式。 DLP 将此单词模式转换为文档指纹,该指纹是一个小型 Unicode XML 文件,其中包含表示原始文本的唯一哈希值。 指纹在 Active Directory 中保存为数据分类。 (作为安全措施,原始文档本身不存储在服务上;仅存储哈希值。无法从哈希值重新构造原始文档。) 然后,专利指纹将成为可与 DLP 策略关联的 SIT。 将指纹与 DLP 策略关联后,DLP 会检测包含与专利指纹匹配的内容的任何出站电子邮件,并根据组织的策略对其进行处理。
例如,如果设置了阻止普通员工发送包含专利的传出消息的 DLP 策略,DLP 将使用专利指纹来检测专利并阻止这些电子邮件。 或者,你可能希望让法律部门能够向其他组织发送专利,因为它有这样做的业务需求。 若要允许特定部门发送敏感信息,请在 DLP 策略中为这些部门创建例外。 或者,可以允许他们用业务理由替代策略提示。
重要
嵌入文档中的文本不被视为指纹创建。 需要提供不包含嵌入文档的示例模板文件。
支持的文件类型
文档指纹识别支持邮件流规则中支持的相同文件类型 (也称为传输规则) 。 有关受支持的文件类型的列表,请参阅邮件流规则内容检查支持的文件类型。 一个关于文件类型的快速说明:邮件流规则或文档指纹都不支持 .dotx 文件类型,它是Microsoft Word中的模板文件。 当你在此文档指纹识别文章和其他文档指纹识别文章中看到“template”一词时,它指的是你作为标准表单建立的文档,而不是模板文件类型。
文档指纹的限制
在以下情况下,文档指纹不会检测敏感信息:
- 密码保护的文件
- 仅包含图像的文件
- 不包含用于创建文档指纹的原始表单中所有文本的文档
- 大于 4 MB 的文件
注意
若要对设备使用文档指纹,必须启用 高级分类扫描和保护 。
指纹存储在单独的规则包中。 此规则包的最大大小限制为 1(共 150 KB)。 根据此限制,可以为每个租户创建大约 50 个指纹。
注意
用于创建指纹的模板应至少包含 4,096 个字符。 指纹模板支持的提取文本长度必须介于 4,096 到 204,800 个字符之间。
以下示例演示基于专利模板创建文档指纹时会发生什么情况。 但是,可以使用任何窗体作为创建文档指纹的基础。
示例:创建与专利模板的文档指纹匹配的专利文档
为正在使用的门户选择相应的选项卡。 若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户。
与专利模板的文档指纹匹配的专利文档的 PowerShell 示例
>> $Patent_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\patent.docx'))
>> New-DlpSensitiveInformationType -Name "Patent SIT" -FileData $Patent_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Contoso Patent Template"
部分匹配
若要配置文档指纹的部分匹配,请在配置置信度时,选择 “低”、“ 中”或 “高”,并指定文件中的文本量必须与指纹匹配的百分比介于 30% 到 90% 之间。
高置信度返回最少的误报,但可能会导致更多的误报。 低置信度或中等置信度返回更多的误报,但很少到零的误报。
- 置信度低:匹配项包含的误报最少,但误报最多。 低置信度返回所有低置信度、中等置信度和高置信度匹配项。
- 中等置信度:匹配项包含误报和假负的平均数目。 中等置信度返回所有中等和高置信度匹配项。
- 高置信度:匹配项包含的误报最少,但误报最多。
完全匹配
若要配置文档指纹的完全匹配,请选择“ 精确 ”作为高置信度级别的值。 将高置信度设置为 Exact 时,仅检测到与指纹文本完全相同的文件。 如果文件甚至与指纹有细微的偏差,则不会检测到它。
已在使用指纹 SCT?
这些指纹的现有指纹和策略/规则应继续工作。 如果不想使用最新的指纹功能,则无需执行任何操作。
如果你有 E5 许可证并想要使用最新的指纹功能,则有 2 种选择:
- 创建新的指纹。
- 将策略迁移到 较新版本。
注意
不支持使用已存在指纹的模板创建新指纹。
使用 Microsoft Purview 使用指纹 SIT 创建新策略
为正在使用的门户选择相应的选项卡。 若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户。
- 在Microsoft Purview 合规门户中,导航到“数据丢失防护>策略”,然后选择“+ 创建策略”。
- 对于 “类别 ”,选择“ 自定义 ”,对于 “法规 ”,请选择“ 自定义策略”。
- 选择“下一步”。
- 为策略命名,然后提供说明>。
- 在 “分配管理单元 ”页上,选择“ 下一步”。
- 选择要应用策略的位置,然后选择“ 下一步”。
- 在 “定义策略设置” 页上,选择“ 创建或自定义高级 DLP 规则 ”,然后选择“ 下一步”。
- 选择“ + 创建规则”。
- 为规则提供名称和说明。
- 在 “条件” 下,选择 “添加条件>内容包含”。
- 为新的 DLP 规则集提供 组名称>“添加>敏感信息类型”。
- 搜索并选择指纹 SIT >添加的名称。
- 完成规则创建工具的其余部分以配置规则。
- 选择“保存”。
- 选择“下一步”。
- 选择“ 在模拟模式下运行策略 ”,然后选择“ 下一步”。
- 选择 “提交 ”,然后选择“ 完成”。
使用 PowerShell 基于文档指纹创建自定义敏感信息类型
目前,只能在 安全性 & 合规性 PowerShell 中创建文档指纹。
DLP 使用敏感信息类型 (SIT) 来检测敏感内容。 若要基于文档指纹创建自定义 SIT,请使用 New-DlpSensitiveInformationType cmdlet。 以下示例基于文件 C:\My Documents\Contoso Customer Form.docx 创建名为“Contoso Customer Confidential”的新文档指纹。
$Employee_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Customer Form.docx'))
New-DlpSensitiveInformationType -Name "Contoso Customer Confidential" -FileData $Employee_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Message contains Contoso customer information."
最后,将“Contoso 客户机密”敏感信息类型添加到Microsoft Purview 合规门户中的 DLP 策略。 本示例将规则添加到名为“ConfidentialPolicy”的现有 DLP 策略。
New-DlpComplianceRule -Name "ContosoConfidentialRule" -Policy "ConfidentialPolicy" -ContentContainsSensitiveInformation @{Name="Contoso Customer Confidential"} -BlockAccess $True
还可以在 Exchange 的邮件流规则中使用指纹 SIT,如以下示例所示。 若要运行此命令,首先需要连接到 Exchange PowerShell。 另请注意,SIT 与 Exchange 管理中心同步需要一段时间。
New-TransportRule -Name "Notify :External Recipient Contoso confidential" -NotifySender NotifyOnly -Mode Enforce -SentToScope NotInOrganization -MessageContainsDataClassification @{Name=" Contoso Customer Confidential"}
DLP 现在检测与 Contoso 客户 Form.docx 文档指纹匹配的文档。
有关语法和参数信息,请参阅:
- New-DlpFingerprint
- New-DlpSensitiveInformationType
- Remove-DlpSensitiveInformationType
- Set-DlpSensitiveInformationType
- Get-DlpSensitiveInformationType
编辑、测试或删除文档指纹
若要通过用户界面执行此操作,请打开要编辑、测试或删除的指纹 SIT,然后选择相应的图标。
若要通过 PowerShell 执行此操作,请运行以下命令:
编辑文档指纹
>> Set-DlpSensitiveInformationType -Name "Fingerprint SIT" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"
测试文档指纹
>> $r = Test-DataClassification -TextToClassify "Credit card information Visa: 4485 3647 3952 7352. Patient Identifier or SSN: 452-12-1232"
>> $r.ClassificationResults
删除文档指纹
>> Remove-DlpSensitiveInformationType "Fingerprint SIT"
通过用户界面使用指纹 SIT 迁移新策略
- 导航到 “数据分类>分类器>”“敏感信息类型”。
- 打开包含要迁移的指纹的 SIT。
- 选择 “编辑”。
- 再次上传同一指纹文件。
- 查看指纹设置 >“完成”。
使用 PowerShell 迁移指纹
输入以下命令:
Set-DlpSensitiveInformationType -Name "Old Fingerprint" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"