可训练的分类器入门

Microsoft Purview 可训练分类器是一种工具,可以通过提供可查看的示例对其进行训练来识别各种类型的内容。 经过训练后,可以使用它来标识用于应用 Office 敏感度标签、通信合规性策略和保留标签策略的项目。

实现自定义可训练分类器需要两个步骤:

  1. 提供由人类) 选择的两组示例数据 (。
    1. 一个仅包含属于类别的项的集。
    2. 一个仅包含 不属于 类别的项的集。
  2. 测试分类器检测匹配项的能力。

本文介绍如何创建和测试自定义分类器。

若要详细了解不同类型的分类器,请参阅 了解可训练分类器

提示

如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即在 Microsoft Purview 试用中心开始。 了解有关 注册和试用条款的详细信息。

先决条件

许可要求

分类器是Microsoft 365 E3和 E5 合规性中的一项功能。 必须拥有其中一个订阅才能使用这些订阅。

权限

若要在以下方案中使用分类器,需要具有以下权限:

应用场景 所需的角色权限
保留标签策略 记录管理
保留管理
敏感度标签策略 安全管理员
合规管理员
合规数据管理员
通信合规性策略 内部风险管理管理员
监督评审管理员

重要

默认情况下,只有创建自定义分类器的用户才能训练和查看该分类器所做的预测。

准备自定义可训练分类器

在深入了解之前,了解创建自定义可训练分类器所涉及的内容很有帮助。

总体工作流

若要详细了解创建自定义可训练分类器的总体工作流,请参阅 创建自定义可训练分类器的过程流

种子内容

若要确保可训练的分类器能够独立准确地识别某个项是否属于特定类别的内容,必须向它提供该类别中内容类型的许多示例。 这种将样本馈送到可训练分类器称为 种子设定。 人类必须是选择种子内容的人,并且该内容必须包含两组数据:一组仅包含强表示分类器设计用于检测 (阳性样本) 的内容的项目,另一组显然不属于阴性样本) (项。

训练分类器需要至少 50 个阳性样本 (高达 500) ,至少 150 个阴性样本 (高达 1500) 。 提供的样本越多,分类器进行的预测就越准确。 可训练的分类器将处理最多 2000 个最近创建的样本, (文件创建的日期/时间戳) 。

提示

为了获得最佳结果,测试示例集中至少有 200 个项目,其中包括至少 50 个阳性示例和至少 150 个负面示例。

创建可训练分类器组

为正在使用的门户选择相应的选项卡。 根据 Microsoft 365 计划,Microsoft Purview 合规门户已停用或即将停用。

若要详细了解 Microsoft Purview 门户,请参阅 Microsoft Purview 门户。 若要了解有关合规性门户的详细信息,请参阅 Microsoft Purview 合规门户

预览版: 以下过程自动测试可训练分类器,并将创建工作流从 12 天缩短到两天。 (在某些情况下,此过程只需几个小时。)

  1. 收集 50-500 个种子内容项,这些项强烈表示你希望分类器主动标识为属于该类别的数据。 有关支持的文件类型的列表,请参阅 SharePoint Server 中默认已爬网文件扩展名和分析的文件类型

  2. 从 150 到 1500 个项目 (收集 第二 组种子内容,) 表示 不属于 该类别的数据。

  3. 将正种子内容和负种子内容放在单独的 SharePoint 文件夹中。 每个文件夹必须专用于仅保存 种子内容。 记下每个集的网站、库和文件夹 URL。

    提示

    如果为种子数据创建新的 SharePoint 网站和文件夹,请在创建将使用该种子数据的可训练分类器之前,至少允许该位置编制索引一小时。

  4. 使用合规性管理员或安全管理员角色访问权限登录到 Microsoft Purview 门户Microsoft Purview 合规门户,并导航到数据丢失防护>数据分类>分类器

  5. 选择 “可训练的分类器 ”选项卡。

  6. 选择 “创建可训练分类器”。

  7. 添加 肯定 示例的源:选择分类器应检测到的种子内容的 SharePoint 网站、库和文件夹 URL,然后选择“ 下一步”。

  8. 添加 负面 示例的源:选择分类器应忽略的种子内容的 SharePoint 网站、库和文件夹 URL,然后选择“ 下一步”。

  9. 查看设置并选择 “创建可训练分类器”。

  10. 在 24 小时或更短时间内,可训练分类器处理种子数据并生成预测模型。 分类器状态正在 处理 种子数据。 分类器处理完种子数据后,状态更改为 “训练完成”,并且已测试项

  11. 完成训练并自动 (项) 测试后,通过选择“ 发布”来发布分类器以供使用

发布后,分类器将作为条件在 Office 自动标记、敏感度标签基于条件的自动应用保留标签策略通信合规性中提供。

测试分类器

一旦可训练分类器处理足够的正样本和负样本来生成预测模型,则需要测试其做出的预测。 在测试分类器时,可以验证其预测是否正确。 处理所有数据后,手动查看结果并验证每个预测是否正确、不正确或不确定。 Microsoft聚合使用此反馈来改进预测模型。

另请参阅