分析案例内容

已完成

当收集的文档数量较大时,可能很难查看所有文档。 Microsoft Purview 电子数据展示(高级版)提供以下工具来分析文档:

  • 近似重复检测
  • 电子邮件会话
  • 主题

本单元中会介绍上述每个工具。 这些工具可帮助组织:

  • 减少要审阅的文档数量,且不会丢失任何信息。
  • 帮助以一致的方式组织文档。

在组织使用这些文档分析工具之前,可能需要首先分析审阅集中的数据。

分析电子数据展示(高级版)中审阅集中的数据

组织通常具有大量必须审阅的文档和电子邮件。 在这种情况下,他们可能希望首先快速分析数据的总正文,以确定趋势或关键统计信息。 此过程可帮助组织制定审阅策略。 审阅集的电子数据展示(高级版)仪表板可用于快速分析内容。

为审阅集运行分析

分析审阅集内的数据:

  1. 为案例配置分析设置。 有关详细信息,请参阅 配置搜索和分析设置
  2. 打开要分析的审阅集。
  3. 在菜单栏上选择 分析。 在显示的下拉菜单中,选择“ 运行文档 & 电子邮件分析”。

组织可以在案例的“作业”选项卡上检查分析进度。 分析完成后,它可以:

使用“供审阅”筛选器查询

组织为审阅集运行分析后,可以使用自动生成的名为“供审阅”的筛选器查询。 此查询筛选审阅集,以排除不重要项、重复项或非包含项。 此过程仅使组织拥有审阅集中具有代表性、唯一性和包容性的项目。

若要将“供审阅”筛选器查询应用于审阅集,请选择“保存的筛选器查询”。 在显示的下拉列表中,选择“[AutoGen] 供审阅”。

审阅集的屏幕截图,显示下拉菜单中的“保存的筛选器查询”选项和“供审阅”选项。

下面是“供审阅”筛选器查询的语法:


  
   (((FileClass="Email") AND (InclusiveType="InclusiveMinus" OR InclusiveType="Inclusive")) OR ((FileClass="Attachment") AND (UniqueInEmailSet="true")) OR ((FileClass="Document") AND (MarkAsRepresentative="Unique")) OR (FileClass="Conversations"))">">
  

下面的列表介绍筛选器查询的结果,即将内容应用于审阅集后显示的内容。

  • 电子邮件。 显示标记为 包含InclusiveMinus 的项。
    • 包含。 包含项是电子邮件线程中的最后一封邮件。 它包含电子邮件线程中的所有以前内容。
    • 包含(-)。 包含(-) 项包含与电子邮件线程中的特定邮件关联的一个或多个附件。 审阅者可以使用包含(-)值来确定电子邮件线程中的哪些特定邮件具有关联的附件。
  • 附件。 筛选出同一电子邮件集中的重复附件。 仅显示电子邮件线程中唯一的附件。
  • 文档和其他。 筛选出重复的文档。 仅显示审阅集中唯一的文档。
  • Teams 对话。 将显示审阅集中的所有 Teams (和Viva Engage) 对话。

有关包含类型和文档唯一性的详细信息,请参阅本单元稍后显示的“电子邮件线程”部分。

分析报告

若要查看审阅集的 Analytics 报表,请执行以下操作:

  1. 打开审阅集。
  2. 在菜单栏上选择 分析。 在显示的下拉菜单中,选择“显示报告”。

分析结果中,Analytics 报表包含七个组件:

  • 目标总体。 在审阅集中找到的电子邮件、附件和松散文档的数量。
  • 文档 (不包括附件)。 松散文档的数目为:
    • 核心文档
    • 核心文档的唯一近似重复项
    • 另一个文档的精确副本
  • 电子邮件。 具有以下标记的电子邮件数:
    • 包含
    • 包含副本
    • 包含(-)
    • 以上都不是
  • 附件。 具有以下特点的电子邮件附件数:
    • 独特
    • 审阅集中另一个电子邮件附件的重复项
  • 按文件类型列出的文档数。 文件的数目,由文件扩展名标识。
  • 按来源列出的文档。 内容的原始数据源摘要。
  • 按流程聚合的文档。 审阅集进程的内容摘要。

文档分析工具:电子数据展示(高级版)中近似文档检测

考虑一组要审阅的文档,其中子集基于同一模板,并且大部分具有相同的样板语言,只存在一些细微差异。 如果审阅者可以识别此子集,请全面查看其中一个文档,并查看其余文档的差异,这样就不会遗漏任何唯一信息。 此外,审阅者只需花费从头到尾阅读所有文件所需时间的一小部分。

注意

近似文档检测组将文本上相似的文档分组在一起,以帮助组织提高其审阅过程的效率。

重复检测的工作原理是什么?

运行近似重复检测时,系统会对每一份包含文本的文档展开分析。 然后,系统会将每份文档相互比对,以确定其相似性是否大于设置阈值。 如果是,则这些文档将被组合在一起。

对所有文档进行比较和分组后,每个组中的一文档将标记为 核心文档。 当组织审阅其文档时,可以先查看核心文档。 然后,可以查看同一个近似文档集中的其他文档。 组织可以专注于核心文档与正在审阅的文档之间的差异。

文档分析工具:电子数据展示(高级版)中的电子邮件线程

考虑一个已持续一段时间的电子邮件对话。 在大多数情况下,电子邮件线程中的最后一封邮件将包含上述所有邮件的内容。 因此,查看最后一条消息可提供线程中发生的对话的完整上下文。

注意

电子邮件会话可识别此类电子邮件,以便审阅者可以审阅已收集的一小部分文档,而不会丢失任何上下文。

电子邮件线程的工作原理是什么?

电子邮件线程分析每个电子邮件线程。 然后,将其解构为单个消息。 每个电子邮件线程都是单个邮件的链。

Microsoft Purview 电子数据展示(高级版)分析审阅集中的所有电子邮件,以确定电子邮件是否具有唯一内容。 它还可以确定链(父消息)是否完全包含在电子邮件线程中的最后一封邮件中。 在流程结束时,电子邮件分为四个类别:

  • 包含包含 电子邮件是电子邮件线程中的最后一封电子邮件。 它包含该电子邮件线程的所有以前内容。
  • 包含(-)。 如果电子邮件线程中存在与特定邮件关联的一个或多个附件,则将电子邮件指定为 包含(-)。 审阅者可以使用包含(-)值来确定线程中的哪个特定电子邮件具有关联的附件。
  • 包含副本。 如果电子邮件为包含包含(-)邮件的精确副本,则该邮件被视为包含
  • None 值指示邮件的内容完全包含在至少一封标记为包含包含(-)的其他电子邮件中。

它与 Outlook 中的对话有何不同?

乍看之下,电子邮件线程听起来类似于 Outlook 中的对话分组。 但是,有一些重要的区别。 考虑一个分叉到两个对话中的电子邮件对话。 例如,有人回复了一封不是对话中最新的电子邮件。 由此,对话中的最后两封电子邮件都具有唯一的内容。

Outlook 仍会将电子邮件分组到单个对话中。 为什么? 因为仅阅读最后一封电子邮件可能会导致缺少第二到最后一封电子邮件的上下文,该电子邮件还包含唯一内容。

由于电子邮件线程将每封电子邮件分析成单个组件并对其进行比较,因此电子邮件线程会将最后两封电子邮件都标记为包含。 此过程可确保只要阅读所有标记为包含电子邮件,就不会错过任何上下文。

文档分析工具:电子数据展示(高级版)中的主题

人员如何编写文档? 他们通常从要在文档中传达的一个或多个想法开始。 然后,他们使用与想法一致的字词撰写文档。 想法越普遍,与该想法相关的字词往往出现越频繁。

此流程还会告知人们如何使用文档。 阅读文档时要了解的重要事项包括:

  • 文档尝试传达的想法。
  • 想法的出现位置。
  • 想法之间的关系是什么。

这些项目可以扩展到一个人想要使用一组文档的方式。 他们希望看到:

  • 集合中存在哪些想法。
  • 哪些文档正在讨论这些想法。
  • 在发现感兴趣的特定文档时,参阅讨论类似想法的文档。

注意

电子数据展示(高级版)中的主题功能尝试模拟人类对文档的推理方式。 它通过分析审阅集中讨论的主题并将主题分配给审阅集中的文档来实现此操作。

在电子数据展示(高级版)中,“主题”会更进一步,并标识 每个文档中的主导主题。 主导主题是文档中最常出现的主题。

“主题”的工作原理是什么?

“主题“功能使用审阅集中的文本分析文档。 它用于分析在审阅集中的所有文档中显示的常见主题。

电子数据展示(高级版)将主题分配給显示这些主题的文档。 它还使用文档中能够代表主题的文字来标记每个主题。 由于文档可以包含各种类型的主题,因此电子数据展示(高级版)通常会向文档分配多个主题。 文档中最突出的主题被指定为优势主题。

知识检查

为以下每个问题选择最佳答案。

知识检查

1.

电子邮件线程分析每封电子邮件并将其解构为单个邮件。 然后,它会分析工作集中的所有电子邮件,以确定电子邮件是否具有唯一内容,或者该链是否完全包含在其他电子邮件中。 在过程结束时,电子邮件将分为四个类别。 电子邮件中的最后一封邮件在哪个类别中具有唯一内容,但电子邮件不包含其他电子邮件中包含的某些附件,这些附件中的内容完全包含在此电子邮件中?