文档指纹识别

项目
12/25/2024

文档指纹识别是一项Microsoft Purview 功能，它采用你提供的标准表单，并根据该表单 (SIT) 创建敏感信息类型。文档指纹识别通过识别整个组织中使用的标准表单，可以更轻松地保护敏感信息。本文介绍文档指纹识别背后的概念，以及如何使用用户界面或使用 PowerShell 创建文档指纹。

文档指纹包括以下优势：

从文档指纹创建 SIT 可用作 DLP 策略中的检测方法，范围限定为 Exchange、SharePoint、OneDrive、Teams 和设备。
MIP 自动标记可以使用文档指纹作为 Exchange、SharePoint 和 OneDrive 中的检测方法。
可以通过 Microsoft Purview 用户界面管理文档指纹功能。
支持部分匹配。
支持完全匹配。
提高了检测准确性
支持使用多种语言进行检测，包括中文、日语和韩语等双字节语言。

重要

如果你是 E5 客户，我们建议更新现有指纹，以利用完整的文档指纹功能集。如果你是 E3 客户，我们建议升级到 E5 许可证。如果选择不，则无法在 2023 年 4 月之后修改现有指纹或创建新指纹。

文档指纹识别的基本方案

如前所述，文档指纹功能将标准形式的信息转换为敏感信息类型 (SIT) ，可在 DLP 策略的规则中使用。例如，您可以基于空白父模板来创建文档指纹，然后创建 DLP 策略，用于检测和阻止所有包含敏感内容的传出父模板。（可选）可以设置策略提示，以通知发件人他们可能正在发送敏感信息，并且发件人应验证收件人是否有资格接收专利。此过程与组织中使用的任何基于文本的表单一起使用。可以上传的其他表单示例包括：

政府表单
符合《健康保险可携性与责任法案》 (HIPAA) 的表单
人力资源部的员工信息表单
组织专门创建的自定义表单

理想情况下，贵组织已经创建使用特定表单传输敏感信息的业务实践。若要启用检测，请上传要转换为文档指纹的空窗体。接下来，设置相应的策略。完成这些步骤后，DLP 将检测出站邮件中与该指纹匹配的任何文档。

有关设计 DLP 策略的详细信息，请参阅设计数据丢失防护策略。

有关创建和部署 DLP 策略的详细信息，请参阅创建和部署数据丢失防护策略。

文档指纹的工作原理

你知道文档没有实际的指纹，但名称有助于解释该功能。与人的指纹具有唯一模式一样，常用表单 (模板) 可以具有他们唯一的字词模式。可以使用基于此模式的 SIT 来检测使用同一模板创建的文件。这就是为什么上传表单或模板会创建最有效的文档指纹类型的原因。填写表单的每个人都使用相同的原始字词集，然后将自己的字词添加到文档中。要扫描的文档不能受密码保护，必须包含原始表单中的所有文本。

文档指纹图示。

专利模板包含空白字段 “专利标题”、“ 发明者”和 “说明”，以及每个字段的说明（即单词模式）。上传原始专利模板时，它采用受支持的文件类型之一和纯文本格式。 MIcrosoft Purview 将此单词模式转换为文档指纹，它是一个小型 Unicode XML 文件，其中包含表示原始文本的唯一哈希值。作为安全措施，原始文档本身不会存储;仅存储哈希值。无法从哈希值重新构造原始文档。专利指纹以 SIT 表示，可在 DLP 策略中用作条件。

例如，如果设置了阻止普通员工发送包含专利的传出消息的 DLP 策略，DLP 将使用专利指纹 SIT 来检测专利并阻止这些电子邮件。或者，你可能希望让法律部门能够向其他组织发送专利，因为它有这样做的业务需求。若要允许特定部门发送敏感信息，请在 DLP 策略中为这些部门创建例外。或者，可以允许他们用业务理由替代策略提示。

重要

嵌入文档中的文本不被视为指纹创建。需要提供不包含嵌入文档的示例模板文件。

文档指纹的限制

在以下情况下，文档指纹不会检测敏感信息：

密码保护的文件
仅包含图像的文件
不包含用于创建文档指纹的原始表单中所有文本的文档
大于 4 MB 的文件

注意

若要对设备使用文档指纹，必须启用 高级分类扫描和保护 。

指纹存储在单独的规则包中。此规则包的最大大小限制为 150 KB。根据此限制，可以为每个租户创建大约 50 个指纹。

注意

用于创建指纹的模板应至少包含 4,096 个字符。指纹模板支持的提取文本长度必须介于 4,096 到 204,800 个字符之间。

以下示例演示基于专利模板创建文档指纹时会发生什么情况。但是，可以使用任何窗体作为创建文档指纹的基础。

示例：创建与专利模板的文档指纹匹配的专利文档

为正在使用的门户选择相应的选项卡。根据 Microsoft 365 计划，Microsoft Purview 合规门户已停用或即将停用。

若要详细了解 Microsoft Purview 门户，请参阅 Microsoft Purview 门户。若要了解有关合规性门户的详细信息，请参阅 Microsoft Purview 合规门户。

Microsoft Purview 门户
合规性门户

在 Microsoft Purview 门户中，导航到数据丢失防护或信息保护>分类>敏感信息类型。
在 “敏感信息类型 ”页上，选择“ + 创建基于指纹的 SIT”。
输入新 SIT 的名称和说明。
上传要用作指纹模板的文件。
可选：调整每个置信度级别的要求。 (有关详细信息，请参阅部分匹配和精确匹配。)
选择“下一步”。
查看设置，然后选择“ 创建”。
显示确认页时，选择“ 完成”。

与专利模板的文档指纹匹配的专利文档的 PowerShell 示例

>> $Patent_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\patent.docx'))

>> New-DlpSensitiveInformationType -Name "Patent SIT" -FileData $Patent_Form  -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Contoso Patent Template"

部分匹配

若要配置文档指纹的部分匹配，请在模板上传期间设置配置选项时，设置置信度，选择 “低”、“ 中”或 “高”，并指定文件中的文本量必须与指纹匹配的百分比介于 30% 到 90% 之间。

高置信度返回最少的误报，但可能会导致更多的误报。低置信度或中等置信度返回更多的误报，但很少到零的误报。

置信度低：匹配项包含的误报最少，但误报最多。低置信度返回所有低置信度、中等置信度和高置信度匹配项。
中等置信度：匹配项包含误报和假负的平均数目。中等置信度返回所有中等和高置信度匹配项。
高置信度：匹配项包含的误报最少，但误报最多。

完全匹配

若要配置文档指纹的完全匹配，请选择“ 精确 ”作为高置信度级别的值。将高置信度设置为 Exact 时，仅检测到与指纹文本完全相同的文件。如果文件甚至与指纹有细微的偏差，则不会检测到它。

已在使用指纹 SCT？

这些指纹的现有指纹和策略/规则应继续工作。如果不想使用最新的指纹功能，则无需执行任何操作。

如果你有 E5 许可证并想要使用最新的指纹功能，则有 2 种选择：

创建新的指纹。
将策略迁移到较新版本。

注意

不支持使用已存在指纹的模板创建新指纹。

使用 PowerShell 基于文档指纹创建自定义敏感信息类型

目前，只能在安全性 & 合规性 PowerShell 中创建文档指纹。

若要基于文档指纹创建自定义 SIT，请使用 New-DlpSensitiveInformationType cmdlet。以下示例基于文件 C：\My Documents\Contoso Customer Form.docx 创建名为“Contoso Customer Confidential”的新文档指纹。

$Employee_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Customer Form.docx'))

New-DlpSensitiveInformationType -Name "Contoso Customer Confidential" -FileData $Employee_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Message contains Contoso customer information."

最后，将“Contoso 客户机密”敏感信息类型添加到Microsoft Purview 合规门户中的 DLP 策略。本示例将规则添加到名为“ConfidentialPolicy”的现有 DLP 策略。

New-DlpComplianceRule -Name "ContosoConfidentialRule" -Policy "ConfidentialPolicy" -ContentContainsSensitiveInformation @{Name="Contoso Customer Confidential"} -BlockAccess $True

还可以在 Exchange 的邮件流规则中使用指纹 SIT，如以下示例所示。若要运行此命令，首先需要连接到 Exchange PowerShell。另请注意，SIT 与 Exchange 管理中心同步需要一段时间。

New-TransportRule -Name "Notify :External Recipient Contoso confidential" -NotifySender NotifyOnly -Mode Enforce -SentToScope NotInOrganization -MessageContainsDataClassification @{Name=" Contoso Customer Confidential"}

DLP 现在可以检测与 Contoso 客户 Form.docx 文档指纹匹配的文档。

有关语法和参数信息，请参阅：

编辑、测试或删除文档指纹

若要在 Microsoft Purview 门户中执行此操作，请打开要编辑、测试或删除的指纹 SIT，然后选择相应的图标。

若要通过 PowerShell 执行此操作，请运行以下命令：

编辑文档指纹

>> Set-DlpSensitiveInformationType -Name "Fingerprint SIT" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"

测试文档指纹

>> $r = Test-DataClassification -TextToClassify "Credit card information Visa: 4485 3647 3952 7352. Patient Identifier or SSN: 452-12-1232"
>> $r.ClassificationResults

删除文档指纹

>> Remove-DlpSensitiveInformationType "Fingerprint SIT"

通过 Microsoft Purview 门户将现有指纹 SIT 迁移到

打开 Microsoft Purview 门户>，信息保护>Classifiers>敏感信息类型。
打开包含要迁移的指纹的 SIT。
选择 “编辑”。
再次上传同一指纹文件。
查看指纹设置 >“完成”。

使用 PowerShell 迁移指纹

输入以下命令：

Set-DlpSensitiveInformationType -Name "Old Fingerprint" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"

通过