默认情况下，使用 Microsoft Purview 进行保护，并防止过度共享 - 阶段 3

项目
11/20/2024

本指南分为四个阶段：

简介
阶段 1：基础 - 从默认标签开始
阶段 2：托管 - 对敏感度最高的文件进行寻址
阶段 3：优化 - 扩展至此页面 (整个 Microsoft 365 数据资产)
阶段 4：战略 - 操作、扩展和追溯操作

默认情况下，使用 Microsoft Purview 进行保护，并防止过度共享 - 蓝图

在前面的阶段中，我们布局了安全基础并讨论了优先站点。我们介绍了客户端和服务端自动标记功能。有关比较表，请参阅：在 Microsoft 365 中自动应用敏感度标签。

阶段 3：优化 - 扩展到整个Microsoft 365 数据资产

在此阶段，我们将介绍有助于迭代解决所有Microsoft 365 数据资产的选项。

之前，我们建议使用初始策略来熟悉用户。在此阶段，我们已准备好在方案中逐步使用它们。自动标记最适合需要比默认标签更高的敏感度的方案。

我们还讨论了如何追溯性地标记现有网站并设置默认库标签。

客户端上的敏感文件自动标记 (低阈值)

客户端自动标记使用户有机会决定应用建议的标签或报告误报。可以使用 300 多种敏感信息类型 (SIT) 可用和可训练的分类器来完成。

概括而言，我们建议采用以下方法。阈值仅作为示例提供。

确定行业的相关 SIT。
建议使用 SIT 阈值较低的标签 (1-9) 。
自动应用具有更高阈值的标签 (10 多个) 和/或可训练的分类器。

客户端默认标签会影响自动标记策略。虽然本指南建议将其设置为 “机密\所有员工”，但我们还提供了当 Office 客户端默认为“常规”和“ 机密\所有员工 ”（在 SharePoint 中保存时）的替代项。

提示

如果默认设置设置为 “机密\所有员工”，则自动标记策略不太复杂，并且侧重于 “高度机密” 标签。

随着确定更多业务方案，可以随着时间的推移使用更多 SCT/可训练的分类器逐步部署此功能。使用默认值和客户端自动标记，现在可以处理所有新的和更新的内容。

模拟自动标记静态敏感文件

服务端自动标记在 SharePoint 和 OneDrive 中的静态文件，并提供更多条件。目前，我们支持在组织中每天自动标记多达 10 万个文件。

提示

详细了解使用 Playbook 自动标记 - 服务端自动标记

虽然客户端自动标记仅限于敏感内容，但服务端自动标记增加了对上下文条件的支持，例如：

共享内容
文件扩展名为
文档名称包含字词或短语
文档属性为
文档大小等于或大于
文档创建者

这些条件与选择特定网站和/或用户的 OneDrive 相结合，使组织能够确定要首先标记的内容的优先级。

例如，如果组织使用具有文档属性或文档名称前缀的模板，则可以跨所有 SharePoint 网站和 OneDrive 运行策略。还可以根据领导团队创建的文件大小或文档来确定优先级。

您可以通过在 SharePoint 网站成批中使用 Office/PDF 文件扩展名 来完成标记所有文档，并设置为匹配其各自网站的标签，从敏感度较高的网站开始，逐步捕获常规网站。

最后，可以为 高度机密 内容实现更多的服务端自动标记，通常具有比客户端自动标记中使用的更高的阈值，以减少潜在的误报。

使用高级分类器减少误报

在本部分中，我们将介绍高级分类器的基础以及何时使用它们。

在此默认安全蓝图的上下文中，我们重点使用具有高度机密内容的自动标记的分类器，其中高级分类器仅限于可训练的分类器。在大多数情况下，敏感信息类型 (SCT) 是模式和关键字的组合。受保护的运行状况信息 (PHI) 和个人身份信息 (PII) 等模板可能会返回许多误报，因为它们无法确定上下文或可能是组织的误报。

Purview 管理员可以通过以下方式减少误报：

增加所需的置信度和/或阈值计数。
查找具有 AND 而不是 OR 运算符的多个 SIT。
将 SIT 克隆到自定义 SIT 并微调要求。
使用多个正则表达式，而不是单个但范围很广的正则表达式。
强制单词匹配。
使用可训练的分类器、精确数据匹配 (EDM) 和文档指纹。

提示

在此处详细了解这些选项：用于在 MIP 和 DLP 中最大程度地提高准确性并减少误报检测的提示和技巧

可训练的分类器使用机器学习来识别文档模式。 Microsoft Purview 提供了多个预先训练的分类器，例如法律文档、战略业务文档和财务信息。还可以从 SharePoint 文档库创建和训练自定义分类器。

通过使用 SIT 和可训练分类器，可以缩小范围，例如， 包含信用卡 SCT 和财务信息可训练分类器。

精确数据匹配和文档指纹目前无法自动标记，但应在整体Microsoft Purview 数据丢失防护 (DLP) 策略中考虑。与可训练分类器类似，它们都可以帮助减少误报。例如，使用 EDM，可以查找包含现装的 SIT 的 SSN，然后针对 EDM SIT 进行验证，以验证它是来自某个客户或员工的 SSN。 EDM 允许安全地存储要查找的信息哈希。

文档指纹识别的操作方式与可训练分类器不同，方法是标识文档模板并在 DLP 策略中使用它们。如果组织具有标准化模板，则这非常有用。可以使用这些模板创建精确的指纹。

自动执行和改进Microsoft 365 对历史和正在使用的数据的保护

在此阶段的最后一步中，我们将审查在现有 SharePoint 网站上追溯应用标签的选项，并相应地应用默认库标签。

此时，我们已在整个环境中配置默认值，并阻止了未标记网站和文档的激增。我们开始手动解决在优先网站上标记网站和库的问题，我们正在考虑在整个Microsoft 365 内容资产中扩展这一点。

有一些策略需要考虑：

使用网站所有者 - 向网站所有者传达他们必须在其网站和默认库上配置标签。如果打算使用 #2，请提及它将在目标日期自动接收新的默认值。
在剩余的未标记站点上运行自动化脚本 - 使用图形 API标识未标记的网站，并将容器标签和默认库标签配置为“机密\所有员工”
（可选）仅阻止共享未标记的文件 - 使用之前的措施（例如对未标记的内容执行 DLP 和文件自动标记），可以选择让网站自然过期，而不是针对所有网站的追溯操作编写脚本。
捕获未标记站点的时间线 – 如果计划基于容器标签对所有历史数据使用服务端自动标记，请捕获何时添加容器标签，并在自动标记策略中逐步添加新标记的网站。

风险状况定义了如何在所有策略之间实现最佳方法，或者可能逐步使用它们。虽然我们建议保护所有数据资产，但它可能是一项复杂的任务，具体取决于其大小。从小规模开始，并经常迭代。

可以使用“Set-PnPTenantSite”和“SensitivityLabel”参数编写 SharePoint 网站的敏感度标签脚本。

对于默认库标签，需要在库上使用 REST API 设置“DefaultSensitivityLabelForLibrary”参数。本文提供了一个示例。

阶段 3 - 摘要

另请参阅

继续执行第 4 阶段：战略 - 操作、扩展和追溯操作

通过