使用文档指纹检测敏感信息文档

5 分钟

组织中的信息工作人员每天会处理大量的敏感信息。在 Microsoft Purview 合规门户中，文档指纹可让组织更轻松地保护这些信息。它通过标识组织使用的标准表单来实现此目的。

本单元介绍了文档指纹所基于的概念。还介绍了如何使用 Windows PowerShell 创建文档指纹。

文档指纹的基本方案

文档指纹是一项 Microsoft Purview 数据丢失防护 (DLP) 功能。它可以将标准表单转换为敏感信息类型。然后，组织可以在其 DLP 策略中使用此信息类型。例如，组织可以完成以下步骤：

基于空白专利模板创建文档指纹。
创建一个 DLP 策略，用于检测和阻止所有包含敏感内容的传出专利模板。
（可选）将策略提示设置为通知发件人他们可能正在发送敏感信息。任何收到策略提示的发件人都应验证收件人是否有权接收专利。

此过程适用于组织中使用的任何基于文本的表单。组织可以上传的其他表单示例包括：

政府表单
符合《健康保险可携性与责任法案》 (HIPAA) 的表单
人力资源部的员工信息表单
专门为组织创建的自定义表单

请看以下示例。 Contoso 已经建立了使用特定表单传输敏感信息的业务实践。 Contoso 首先会上传一个空表单，稍后将其转换为文档指纹。创建文档指纹后，Contoso 会创建新的数据分类规则。此规则使用之前创建的文档指纹。然后，Contoso 设置相应的 DLP 策略，并将规则添加到该策略中。现在将文档指纹分配给 DLP 策略后，DLP 服务会检测出站邮件中与该指纹匹配的任何文档。

文档指纹的工作原理

我们都知道文档并没有真正的指纹。但是，“文档指纹”这一名称有助于解释此功能。人的指纹各不相同，同理，文档的单词模式也各不相同。当组织上传文件时，Microsoft Purview DLP 会：

标识文档中的唯一单词模式。
基于该模式创建文档指纹。
使用该文档指纹检测包含相同模式的出站文档。

此过程说明了为什么上传表单或模板可以创建最有效的文档指纹类型。填写表单的每个人都使用相同的原始单词集。然后，他们将自己的单词添加到文档。如果出站文档包含原始表单中的所有文本，并且没有密码保护，DLP 可以确定它是否与文档指纹匹配。

重要

目前，DLP 只能将文档指纹用作 Exchange Online 中的检测方法。

组织可以使用任何表单作为创建文档指纹的基础。下面的示例演示基于专利模板创建文档指纹时会发生什么情况。

示意图显示专利文档与专利模板的文档指纹的对比。

专利模板包含“专利标题”、“发明人”和“说明”等空白字段以及这些字段的说明 - 这就是单词模式。原始专利模板应该采用受支持的一种文件类型和纯文本格式。当组织上传专利模板时：

DLP 将此单词模式转换为文档指纹。指纹是一个小的 Unicode XML 文件，其中包含表示原始文本的唯一哈希值。
组织将专利指纹另存为 Active Directory 中的数据分类。

注意

作为安全措施，系统不会将原始文档本身存储在服务上；它只存储哈希值。系统无法根据哈希值重新构造原始文档。
然后专利指纹将成为敏感信息类型，组织可以将其与 DLP 策略相关联。
组织将指纹与 DLP 策略关联后，DLP 会检测包含的文档与专利指纹匹配的任何出站电子邮件。然后，它会根据组织的策略处理它们。

例如，假设你想要设置一个 DLP 策略，以阻止正式员工发送包含专利的邮件。 DLP 使用专利指纹检测专利并屏蔽这些电子邮件。或者，你可能希望允许法务部出于业务需要向其他组织发送专利。通过在 DLP 策略中为这些部门创建例外，可以允许特定部门发送敏感信息。或者，你可以允许他们使用业务理由替代策略提示。

支持的文件类型

文档指纹支持邮件流规则（也称为传输规则）支持的相同文件类型。有关受支持的文件类型的列表，请参阅邮件流规则内容检查支持的文件类型。

注意

邮件流规则和文档指纹不支持 .dotx 文件类型。这种情况可能会令人困惑，因为 .dotx 是 Word 中的模板文件。在本单元中看到“模板”一词时，它指的是组织已建立为标准表单的文档，而不是模板文件类型。

在下列情况下，文档指纹不会检测敏感信息：

密码保护的文件。
仅包含图片的文件。
不包含用于创建文档指纹的原始表单中所有文本的文档。
大于 10 MB 的文件。

使用 PowerShell 创建基于文档指纹的分类规则包

目前，只能使用安全性和合规性 PowerShell 模块创建文档指纹。

DLP 使用分类规则包检测敏感内容。若要创建基于文档指纹的分类规则包，请使用 New-DlpFingerprint 和 New-DlpSensitiveInformationType cmdlet。

注意

由于系统不会将 New-DlpFingerprint 的结果存储在数据分类规则之外，因此必须始终在同一 PowerShell 会话中运行 New-DlpFingerprint 和 New-DlpSensitiveInformationType 或 Set-DlpSensitiveInformationType。

让我们通过一个示例来演示如何创建基于文档指纹的分类规则包。

在以下示例中，你需要基于文件 C:\My Documents\Contoso Employee Template.docx 创建新的文档指纹。将新指纹存储为变量，以便可以将其用于同一 PowerShell 会话中的 New-DlpSensitiveInformationType cmdlet。
```
$Employee_Template = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Employee Template.docx'))

$Employee_Fingerprint = New-DlpFingerprint -FileData $Employee_Template -Description "Contoso Employee Template"
```

创建文档指纹后，应创建新的数据分类规则。对于本示例，我们将其命名为 Contoso Employee Confidential。此规则使用 C:\My Documents\Contoso Customer Information Form.docx 文件的文档指纹。

$Customer_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Customer Information Form.docx'))

$Customer_Fingerprint = New-DlpFingerprint -FileData $Customer_Form -Description "Contoso Customer Information Form"

New-DlpSensitiveInformationType -Name "Contoso Customer Confidential" -Fingerprints $Customer_Fingerprint -Description "Message contains Contoso customer information."

现在可以使用 Get-DlpSensitiveInformationType cmdlet 查找所有 DLP 数据分类规则包。在此示例中，Contoso Customer Confidential 是数据分类规则包列表的一部分。然后，将 Contoso Customer Confidential 数据分类规则包添加到 DLP 策略。虽然可以在 Microsoft Purview 合规门户中完成此步骤，但本示例向名为 ConfidentialPolicy 的现有 DLP 策略添加规则。
```
New-DlpComplianceRule -Name "ContosoConfidentialRule" -Policy "ConfidentialPolicy" -ContentContainsSensitiveInformation @{Name="Contoso Customer Confidential"} -BlockAccess $True
```
你还可以在 Exchange Online 的邮件流规则中使用数据分类规则包。若要运行此命令，必须首先连接到 Exchange Online PowerShell。请记住，规则包需要一些时间才能从 Microsoft Purview 合规门户同步到 Exchange 管理中心。
```
New-TransportRule -Name "Notify :External Recipient Contoso confidential" -NotifySender NotifyOnly -Mode Enforce -SentToScope NotInOrganization -MessageContainsDataClassification @{Name=" Contoso Customer Confidential"}
```

Microsoft Purview 数据丢失防护现在检测到与 Contoso Customer Form.docx 文档指纹匹配的文档。

使用文档指纹检测敏感信息文档

文档指纹的基本方案

文档指纹的工作原理

支持的文件类型

使用 PowerShell 创建基于文档指纹的分类规则包

反馈