了解电子数据展示 (高级版) (预览版中的预测编码)
提示
电子数据展示 (预览) 现已在新的 Microsoft Purview 门户中提供。 若要详细了解如何使用新的电子数据展示体验,请参阅 了解电子数据展示 (预览版) 。
重要
预测编码已于 2024 年 3 月 31 日停用,在新的电子数据展示案例中不可用。 对于具有已训练预测编码模型的现有案例,可以继续将现有分数筛选器应用于审阅集。 但是,无法创建或训练新模型。
电子数据展示 (Premium) 中的预测编码模块使用智能机器学习功能来帮助你减少要查看的内容量。 预测编码有助于减少大量案例内容并将其剔除到一组可优先审查的相关项目。 这是通过创建和训练自己的预测编码模型来实现的,该模型可帮助你确定评审集中最相关的项目的评审优先级。
预测编码模块旨在简化在评审集中管理模型的复杂性,并提供一种迭代方法来训练模型,以便你可以更快地开始使用电子数据展示 (Premium) 中的机器学习功能。 若要开始,可以创建一个模型,将多达 50 个项标记为相关或不相关。 系统使用此训练将预测分数应用于评审集中的每个项目。 这使你可以根据预测分数筛选项目,从而可以先查看最相关的 (或不相关的) 项。 如果要以更高的准确度和召回率训练模型,可以在后续训练轮中继续标记项,直到模型稳定下来。
提示
如果你不是 E5 客户,请使用 90 天Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即在 Microsoft Purview 试用中心开始。 了解有关 注册和试用条款的详细信息。
预测编码工作流
下面是每个步骤预测编码工作流的概述和说明。 有关预测编码过程的概念和术语的更详细说明,请参阅 预测编码参考。
在审阅集中创建新的预测编码模型。 第一步是在审阅集中创建新的预测编码模型。 评审集中必须至少有 2,000 个项目才能创建模型。 创建模型后,系统将确定用作 控件集的项数。 控制集在训练过程中用于评估模型分配给具有训练轮期间执行的标记的项的预测分数。 控件集的大小取决于审阅集中的项数,以及创建模型时设置的错误值的置信度和边距。 控件集中的项永远不会更改,并且用户无法识别。
有关详细信息,请参阅 创建预测编码模型。
通过将项目标记为相关或不相关来完成第一轮训练。 下一步是通过开始第一轮训练来训练模型。 开始训练轮次时,模型从评审集中随机选择其他项目,称为 训练集。 这些项 (控件集和训练集) 显示给你,以便你可以将每个项标记为“相关”或“不相关”。 相关性基于项中的内容,而不是任何文档元数据。 在训练轮中完成标记过程后,模型将根据你在训练集中标记项的方式“学习”。 基于此训练,模型将处理评审集中的项,并为每个项应用预测分数。
有关详细信息,请参阅 训练预测编码模型。
将预测分数筛选器应用于审阅集中的项目。 完成上一个训练步骤后,下一步是将预测分数筛选器应用于评审中的项,以显示模型确定的“最相关”的项 (或者,还可以使用预测筛选器显示“不相关”) 项。 应用预测筛选器时,指定要筛选的预测分数范围。 预测分数的范围介于 0 和 1 之间, 0 表示“不相关”, 1 表示相关。 通常,预测分数在 0 和 0.5 之间的项被视为“不相关”,预测分数介于 0.5 和 1 之间的项被视为相关项。
有关详细信息,请参阅 将预测筛选器应用于审阅集。
执行更多的训练轮次,直到模型稳定下来。 如果要创建预测准确度更高、召回率更高的模型,则可以执行其他轮次训练。 回顾速率衡量模型预测的项在训练) 期间实际相关的项 (相关项的比例。 召回率分数范围为 0 到 1。 接近 1 的分数表示模型将识别更相关的项。 在新的训练轮中,你将在新的训练集中标记其他项目。 完成该轮训练后,将根据训练集中最近一轮标记项的新学习来更新模型。 模型将再次处理审阅集中的项目,并应用新的预测分数。 可以继续执行训练轮次,直到模型稳定下来。 当最近一轮训练后的流失率低于 5% 时,模型被视为稳定。 流失率 定义为评审集中项目的百分比,其中预测分数在训练轮次之间发生更改。 预测编码仪表板显示有助于评估模型稳定性的信息和统计信息。
应用“最终”预测分数筛选器来评审设置项目优先级。 完成所有训练轮次并稳定模型后,最后一步是将最终预测分数应用于评审集,以便确定相关项和非相关项目的评审优先级。 这是在步骤 3 中执行的相同任务,但此时模型是稳定的,你不打算再运行任何训练轮次。