文档指纹识别
文档指纹识别是一项Microsoft Purview 功能,它采用你提供的标准表单,并根据该表单 (SIT) 创建敏感信息类型。 文档指纹识别通过识别整个组织中使用的标准表单,可以更轻松地保护敏感信息。 本文介绍文档指纹识别背后的概念,以及如何使用用户界面或使用 PowerShell 创建文档指纹。
文档指纹包括以下优势:
- 从文档指纹创建 SIT 可用作 DLP 策略中的检测方法,范围限定为 Exchange、SharePoint、OneDrive、Teams 和设备。
- MIP 自动标记 可以使用文档指纹作为 Exchange、SharePoint 和 OneDrive 中的检测方法。
- 可以通过 Microsoft Purview 用户界面管理文档指纹功能。
- 支持部分匹配。
- 支持完全匹配。
- 提高了检测准确性
- 支持使用多种语言进行检测,包括中文、日语和韩语等双字节语言。
重要
如果你是 E5 客户,我们建议更新现有指纹,以利用完整的文档指纹功能集。 如果你是 E3 客户,我们建议升级到 E5 许可证。 如果选择不,则无法在 2023 年 4 月之后修改现有指纹或创建新指纹。
文档指纹识别的基本方案
如前所述,文档指纹功能将标准形式的信息转换为敏感信息类型 (SIT) ,可在 DLP 策略的规则中使用。 例如,您可以基于空白父模板来创建文档指纹,然后创建 DLP 策略,用于检测和阻止所有包含敏感内容的传出父模板。 (可选)可以设置 策略提示 ,以通知发件人他们可能正在发送敏感信息,并且发件人应验证收件人是否有资格接收专利。 此过程与组织中使用的任何基于文本的表单一起使用。 可以上传的其他表单示例包括:
- 政府表单
- 符合《健康保险可携性与责任法案》 (HIPAA) 的表单
- 人力资源部的员工信息表单
- 组织专门创建的自定义表单
理想情况下,贵组织已经创建使用特定表单传输敏感信息的业务实践。 若要启用检测,请上传要转换为文档指纹的空窗体。 接下来,设置相应的策略。 完成这些步骤后,DLP 将检测出站邮件中与该指纹匹配的任何文档。
有关设计 DLP 策略的详细信息,请参阅 设计数据丢失防护策略。
有关创建和部署 DLP 策略的详细信息,请参阅 创建和部署数据丢失防护策略。
文档指纹的工作原理
你知道文档没有实际的指纹,但名称有助于解释该功能。 与人的指纹具有唯一模式一样,常用表单 (模板) 可以具有他们唯一的字词模式。 可以使用基于此模式的 SIT 来检测使用同一模板创建的文件。 这就是为什么上传表单或模板会创建最有效的文档指纹类型的原因。 填写表单的每个人都使用相同的原始字词集,然后将自己的字词添加到文档中。 要扫描的文档不能受密码保护,必须包含原始表单中的所有文本。
专利模板包含空白字段 “专利标题”、“ 发明者”和 “说明”,以及每个字段的说明(即单词模式)。 上传原始专利模板时,它采用受支持的文件类型之一和纯文本格式。 MIcrosoft Purview 将此单词模式转换为文档指纹,它是一个小型 Unicode XML 文件,其中包含表示原始文本的唯一哈希值。 作为安全措施,原始文档本身不会存储;仅存储哈希值。 无法从哈希值重新构造原始文档。 专利指纹以 SIT 表示,可在 DLP 策略中用作条件。
例如,如果设置了阻止普通员工发送包含专利的传出消息的 DLP 策略,DLP 将使用专利指纹 SIT 来检测专利并阻止这些电子邮件。 或者,你可能希望让法律部门能够向其他组织发送专利,因为它有这样做的业务需求。 若要允许特定部门发送敏感信息,请在 DLP 策略中为这些部门创建例外。 或者,可以允许他们用业务理由替代策略提示。
重要
嵌入文档中的文本不被视为指纹创建。 需要提供不包含嵌入文档的示例模板文件。
文档指纹的限制
在以下情况下,文档指纹不会检测敏感信息:
- 密码保护的文件
- 仅包含图像的文件
- 不包含用于创建文档指纹的原始表单中所有文本的文档
- 大于 4 MB 的文件
注意
若要对设备使用文档指纹,必须启用 高级分类扫描和保护 。
指纹存储在单独的规则包中。 此规则包的最大大小限制为 150 KB。 根据此限制,可以为每个租户创建大约 50 个指纹。
注意
用于创建指纹的模板应至少包含 4,096 个字符。 指纹模板支持的提取文本长度必须介于 4,096 到 204,800 个字符之间。
以下示例演示基于专利模板创建文档指纹时会发生什么情况。 但是,可以使用任何窗体作为创建文档指纹的基础。
示例:创建与专利模板的文档指纹匹配的专利文档
为正在使用的门户选择相应的选项卡。 根据 Microsoft 365 计划,Microsoft Purview 合规门户已停用或即将停用。
若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户。
与专利模板的文档指纹匹配的专利文档的 PowerShell 示例
>> $Patent_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\patent.docx'))
>> New-DlpSensitiveInformationType -Name "Patent SIT" -FileData $Patent_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Contoso Patent Template"
部分匹配
若要配置文档指纹的部分匹配,请在模板上传期间设置配置选项时,设置置信度,选择 “低”、“ 中”或 “高”,并指定文件中的文本量必须与指纹匹配的百分比介于 30% 到 90% 之间。
高置信度返回最少的误报,但可能会导致更多的误报。 低置信度或中等置信度返回更多的误报,但很少到零的误报。
- 置信度低:匹配项包含的误报最少,但误报最多。 低置信度返回所有低置信度、中等置信度和高置信度匹配项。
- 中等置信度:匹配项包含误报和假负的平均数目。 中等置信度返回所有中等和高置信度匹配项。
- 高置信度:匹配项包含的误报最少,但误报最多。
完全匹配
若要配置文档指纹的完全匹配,请选择“ 精确 ”作为高置信度级别的值。 将高置信度设置为 Exact 时,仅检测到与指纹文本完全相同的文件。 如果文件甚至与指纹有细微的偏差,则不会检测到它。
已在使用指纹 SCT?
这些指纹的现有指纹和策略/规则应继续工作。 如果不想使用最新的指纹功能,则无需执行任何操作。
如果你有 E5 许可证并想要使用最新的指纹功能,则有 2 种选择:
- 创建新的指纹。
- 将策略迁移到 较新版本。
注意
不支持使用已存在指纹的模板创建新指纹。
使用 PowerShell 基于文档指纹创建自定义敏感信息类型
目前,只能在 安全性 & 合规性 PowerShell 中创建文档指纹。
若要基于文档指纹创建自定义 SIT,请使用 New-DlpSensitiveInformationType cmdlet。 以下示例基于文件 C:\My Documents\Contoso Customer Form.docx 创建名为“Contoso Customer Confidential”的新文档指纹。
$Employee_Form = ([System.IO.File]::ReadAllBytes('C:\My Documents\Contoso Customer Form.docx'))
New-DlpSensitiveInformationType -Name "Contoso Customer Confidential" -FileData $Employee_Form -ThresholdConfig @{low=40;medium=60;high=80} -IsExact $false -Description "Message contains Contoso customer information."
最后,将“Contoso 客户机密”敏感信息类型添加到Microsoft Purview 合规门户中的 DLP 策略。 本示例将规则添加到名为“ConfidentialPolicy”的现有 DLP 策略。
New-DlpComplianceRule -Name "ContosoConfidentialRule" -Policy "ConfidentialPolicy" -ContentContainsSensitiveInformation @{Name="Contoso Customer Confidential"} -BlockAccess $True
还可以在 Exchange 的邮件流规则中使用指纹 SIT,如以下示例所示。 若要运行此命令,首先需要连接到 Exchange PowerShell。 另请注意,SIT 与 Exchange 管理中心同步需要一段时间。
New-TransportRule -Name "Notify :External Recipient Contoso confidential" -NotifySender NotifyOnly -Mode Enforce -SentToScope NotInOrganization -MessageContainsDataClassification @{Name=" Contoso Customer Confidential"}
DLP 现在可以检测与 Contoso 客户 Form.docx 文档指纹匹配的文档。
有关语法和参数信息,请参阅:
- New-DlpFingerprint
- New-DlpSensitiveInformationType
- Remove-DlpSensitiveInformationType
- Set-DlpSensitiveInformationType
- Get-DlpSensitiveInformationType
编辑、测试或删除文档指纹
若要在 Microsoft Purview 门户中执行此操作,请打开要编辑、测试或删除的指纹 SIT,然后选择相应的图标。
若要通过 PowerShell 执行此操作,请运行以下命令:
编辑文档指纹
>> Set-DlpSensitiveInformationType -Name "Fingerprint SIT" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"
测试文档指纹
>> $r = Test-DataClassification -TextToClassify "Credit card information Visa: 4485 3647 3952 7352. Patient Identifier or SSN: 452-12-1232"
>> $r.ClassificationResults
删除文档指纹
>> Remove-DlpSensitiveInformationType "Fingerprint SIT"
通过 Microsoft Purview 门户将现有指纹 SIT 迁移到
- 打开 Microsoft Purview 门户>,信息保护>Classifiers>敏感信息类型。
- 打开包含要迁移的指纹的 SIT。
- 选择 “编辑”。
- 再次上传同一指纹文件。
- 查看指纹设置 >“完成”。
使用 PowerShell 迁移指纹
输入以下命令:
Set-DlpSensitiveInformationType -Name "Old Fingerprint" -FileData ([System.IO.File]::ReadAllBytes('C:\My Documents\file1.docx')) -ThresholdConfig @{low=30;medium=50;high=80} -IsExact $false-Description "A friendly Description"