创建和重新训练可训练分类器

已完成

Microsoft 365 可训练分类器是组织可以“训练”以识别各种类型的内容的工具。 组织可以通过提供要查看的数据的不同示例来执行此操作。 完成分类器训练后,即在最初创建和训练分类器后,组织可以继续“重新训练”分类器,以提高识别各种数据分类类型的精度。

本单元介绍如何创建可训练分类器,以及如何重新训练现有分类器。

创建可训练分类器组

完成以下步骤以创建、测试和发布自定义可训练分类器:

  1. 收集 50-500 个种子内容项。 这些内容项必须仅为示例。 它们还必须强烈表示希望可训练分类器明确标识为属于分类类别的内容类型。

    重要

    应验证种子集中的项是否为类别的强示例。 可训练分类器最初会根据你为其设定种子的内容生成其模型。 分类器假定所有种子样本都是强正匹配项。 它无法知道样本是与类别的弱匹配还是负匹配。

  2. 将种子内容放在你专用于仅保存种子内容的 SharePoint Online 文件夹中。 记下网站、库和文件夹 URL。

    提示

    如果为种子数据创建新的站点和文件夹,则在创建使用该种子数据的可训练分类器之前,至少允许系统为该位置编制索引一小时。

  3. 使用合规性管理员或安全管理员角色访问权限登录到 Microsoft Purview 合规性 门户。 然后在导航窗格中选择 “数据分类 ”以展开组。

  4. “数据分类 ”组中,选择 “分类器”。

  5. 在“分类器”页上,默认情况下应显示“可训练分类器”选项卡。

  6. 在“可训练分类器”选项卡上,选择菜单栏上的“+创建可训练分类器 ”。

  7. 为希望此可训练分类器标识的项类别的“名称”和 “说明 ”字段填写相应的值

  8. 从步骤 2 中选择种子内容网站的 SharePoint Online 网站、库和文件夹 URL。 选择“添加”。

  9. 查看设置,然后选择“ 创建可训练分类器”。

  10. 可训练分类器最多可能需要 24 小时才能处理种子数据并生成预测模型。 分类器状态正在 处理 种子数据。 分类器完成种子数据的处理后,状态将更改为“需要测试项”。

  11. 分类器完成种子数据的处理后,选择分类器以查看其详细信息页。

    所选分类器的详细信息页的屏幕截图。

  12. 收集至少 200 个测试内容项以获得最佳结果(最多 10,000 个)。 这些项应是强正数、强负数的组合项,以及一些在本质上不太明显的项。

  13. 将测试内容放在你专用于仅保存测试内容的 SharePoint Online 文件夹中。 记下 SharePoint Online 网站、库和文件夹 URL。

    提示

    如果为测试数据创建新的站点和文件夹,则在创建使用该种子数据的可训练分类器之前,至少允许系统为该位置编制索引一小时。

  14. 选择 “添加要测试的项目”。

  15. 从步骤 12 中选择测试内容网站的 SharePoint Online 网站、库和文件夹 URL。 选择“添加”。

  16. 通过选择 “完成”完成向导。 可训练分类器最多需要一小时才能处理测试文件。

  17. 当可训练分类器完成对测试文件的处理后,详细信息页上的状态将更改为 “准备查看”。 如果要增加测试示例大小,请选择 “添加要测试 的项目”,并允许可训练分类器处理额外的项。

    训练过程页的屏幕截图,你在其中查看项目以生成分类器准确性。

  18. 选择“ 测试的项目”以查看 选项卡以查看项目。

  19. Microsoft 365 一次显示 30 个项目。 查看每个项目。 为每个项目显示一个对话框,询问你是否同意其对该项目的评估。 以下屏幕截图显示 “我们预测此项是”相关的”。你同意吗? 评估。 可以通过选择 “是”、“否 ”或 “不确定”来响应,跳到下一项。 系统每 30 项后自动更新模型的准确性。

    “审阅项”页的屏幕截图,其中询问你是否同意其对测试项的评估。

  20. 查看 至少 200 个项目。 系统稳定准确性分数后,“发布”选项将变为可用,分类器状态将更改为“准备使用”。

    “审阅项”页的屏幕截图,指示分类器已准备好使用。

  21. 选择“发布”选项以发布分类器。

  22. 发布分类器后,它将作为以下条件提供:

如何重新训练分类器

当组织使用其可训练的自定义分类器时,它可能需要提高分类器所进行分类的精度。 通过评估分类器进行的“匹配”和“非匹配”分类的质量,可以提高精度。 对分类器进行 30 次评估后,它会接受该反馈并自动重新训练自身。

组织可以提高自定义可训练分类器的准确性。 提高可训练分类器的准确性称为“重新训练”分类器。 若要重新训练可训练分类器,组织必须提供有关其执行的分类准确性的反馈。

注意

组织无法重新训练随其 Microsoft 365 租户提供的预训练分类器。

下图显示了用于重新训练可训练分类器的工作流过程。

显示重新训练可训练分类器所涉及的工作流过程的关系图。

组织可以在 Microsoft Purview 合规门户 的“数据分类”部分重新训练可训练的自定义分类器。 组织应完成以下步骤来重新训练分类器:

  1. Microsoft Purview 合规门户中,在导航窗格中选择“数据分类”以展开此组。

  2. 在“数据分类”组中,选择“内容资源管理器”。

  3. 在“内容资源管理器”页上,在标签、信息类型或类别列表上的“筛选器”下,向下滚动到“可训练分类器”部分。

    重要

    聚合项最多可能需要八天才能显示在“可训练分类器”部分下。

  4. 选择要重新训练的可训练分类器。

    注意

    如果项在“保留标签”列中具有条目,则表示系统将项分类为匹配项。 如果某个项在“保留标签”列中没有条目,则表示系统将其分类为接近匹配项。 通过提供有关关闭匹配项的反馈,可以最大限度提高分类器精度。

  5. 选择一个项目并将其打开。

  6. 然后选择“提供反馈”。

  7. 在“ 详细反馈 ”窗格中,如果项目为真正项,请选择 “匹配”。 如果项为误报,这意味着您错误地将其包含在类别中,请选择 “不匹配”。

  8. 如果还有另一个分类器更适合该项,则可以从 “建议其他可训练分类器”列表中 选择它。 这样做会触发另一个分类器来计算项。

  9. 选择 “发送反馈 ”以发送对“匹配”和“非匹配”分类的评估。 还可以为此可训练分类器建议其他项。 向分类器提供 30 个反馈实例后,它会自动启动重新训练过程。 重新训练可能需要一到四个小时。 每天只能重新训练两次分类器。

    重要

    此信息将转到租户中的分类器。 它不会返回到 Microsoft。

  10. 在“ 分类器 ”页上,选择 “可训练分类器 ”选项卡。

  11. 在通信合规性策略中使用的分类器将显示在“重新训练”标题下。

  12. 重新训练完成后,选择分类器以打开重新训练概述。

    “重新训练概述”选项卡的屏幕截图,显示系统完成分类器重新训练后对数据分类器的反馈。

  13. 查看重新训练和当前发布的分类器版本的建议操作和预测比较。

  14. 如果对重新训练的结果感到满意,请选择 “重新发布”。

  15. 如果对重新训练的结果不满意,可以选择在“内容资源管理器”选项卡中向分类器提供更多反馈,并开始另一个重新训练周期。 或者,你可以选择不执行任何操作,在这种情况下,系统将继续使用当前发布的分类器版本。