了解电子数据展示 (预览版) 事例中的搜索和分析设置
可以配置每个电子数据展示 (预览) 事例的设置,以控制以下功能:
- 近似重复和电子邮件线程
- 主题
- 自动生成的审阅集查询
- 忽略文本
- 光学字符识别
提示
开始使用Microsoft Security Copilot,探索使用 AI 功能更智能、更快速地工作的新方法。 详细了解 Microsoft Purview 中的Microsoft Security Copilot。
为案例配置分析设置
如要为案例配置搜索和分析设置:
- 转到 Microsoft Purview 门户 ,并使用分配有电子数据展示权限的用户帐户的凭据登录。
- 选择电子数据展示解决方案卡然后选择左侧导航栏中的“案例 (预览) ”。
- 选择案例,然后选择 “案例设置”。
- 在 “案例设置 ”页上,选择“ 搜索 & 分析”。
- 将显示“ 案例搜索 & 分析 ”页。 这些设置应用于案例中的所有审阅集。
- 选择适用的搜索和分析选项后,选择“ 保存”。
本文的以下部分介绍了可为案例配置的分析设置。
近似重复和电子邮件线程
在本部分中,可以设置重复检测、近重复检测和电子邮件线程的参数。
- 接近重复/电子邮件线程: 启用后,对审阅集中的数据运行分析时,重复检测、近重复检测和电子邮件线程将作为工作流的一部分包含在工作流中。
- 文档和电子邮件相似性阈值: 如果两个文档的相似性级别高于阈值,则这两个文档将放在同一个接近重复的集中。
- 最小/最大字数: 这些设置指定仅对至少具有最小字数和最多最大字数的文档执行近重复项和电子邮件线程分析。
近似重复检测
考虑一组要审阅的文档,其中子集基于同一模板,并且大部分具有相同的样板语言,只存在一些细微差异。 如果审阅者能够识别此子集,仔细查看其中一个子集,并查看其余部分的差异,则他们不会错过任何唯一信息,而只需花费一小部分时间来阅读所有文档封面。 近似重复检测组将文本类似的文档整理到一起,以便帮助你提高审阅流程的效率。
运行近似重复检测时,系统会对每一份包含文本的文档展开分析。 然后,系统会将每份文档相互比对,以确定其相似性是否大于设置阈值。 如果是,则这些文档将被组合在一起。 对所有文档进行比对和分组后,每一组会有一份文档被标记为“核心文档”;在审阅文档时,可以先查看“核心文档”,然后查看位于相同近似重复集内的其他文件。重点关注核心文档和正在审阅的文档之间的差异。
电子邮件会话
考虑一个已持续一段时间的电子邮件对话。 在大多数情况下,电子邮件线程中的最后一封邮件包括上述所有邮件的内容。 因此,查看最后一条消息会提供线程中发生的会话的完整上下文。 电子邮件会话可识别此类电子邮件,以便审阅者可以审阅已收集的一小部分文档,而不会丢失任何上下文。
Email线程分析每个电子邮件线程并将其解构为单个邮件。 每个电子邮件线程都是单个邮件的链。 电子数据展示 (预览) 分析审阅集中的所有电子邮件,以确定电子邮件是否具有唯一内容,或者 (父邮件) 链是否完全包含在电子邮件线程中的最终邮件中。 Email消息分为四个非独占值:
- 非独占: 非独占 电子邮件是电子邮件线程中的最后一封电子邮件,包含该电子邮件会话的所有先前内容。
- Inclusive 减号:如果电子邮件线程中有一个或多个与特定邮件关联的附件,则电子邮件被指定为 Inclusive 减号 。 审阅者可以使用包含(-)值来确定线程中的哪个特定电子邮件具有关联的附件。
- 非独占副本:如果电子邮件是 Inclusive 或 Inclusive 减去邮件的确切副本,则电子邮件被视为非独占副本。
- None: None 值指示邮件的内容至少包含在标记为“非独占”或“非独占”减号的其他电子邮件中。
它与 Outlook 中的对话有何不同?
乍一看,这听起来类似于 Outlook 中的对话分组。 但是,有一些重要的区别。 考虑一个分叉为两个对话的电子邮件对话;例如,有人回复了不是对话中最新的电子邮件,因此对话中的最后两封电子邮件都具有唯一的内容。
Outlook 仍将将电子邮件分组到单个对话中;仅阅读最后一封电子邮件可能会错过倒数倒数第二的电子邮件的上下文,该电子邮件还包含唯一内容。 由于电子邮件线程将每封电子邮件分析为各个组件并对其进行比较,因此电子邮件线程处理会将最后两封电子邮件中的两个都标记为包含,从而确保只要阅读所有标记为非独占的电子邮件,就不会错过任何上下文
主题
在本部分中,可以为主题设置以下参数:
- 主题:打开后,对审阅集中的数据运行分析时,主题聚类分析作为工作流的一部分执行。
- 主题的最大数目: 指定在对审阅集中的数据运行分析时可以生成的最大主题数。
- 在主题中包含数字: 启用后,生成主题时,将包含标识主题) 的数字 (。
- 动态调整主题的最大数量: 在某些情况下,审阅集中可能没有足够的文档来生成所需数量的主题。 启用此设置后,电子数据展示会动态调整最大主题数,而不是尝试强制实施最大主题数。
创建新文档时,通常从要在文档中传达的一个或多个想法开始,然后使用与这些想法一致的字词撰写文档。 想法越普遍,与该想法相关的字词往往出现越频繁。 此方法还与读者使用文档的方式一致。 阅读文档时要理解的重要事项是文档试图传达的main想法。 这也包括哪些想法出现在何处以及这些想法之间的关系是什么。
此过程可以扩展到电子数据展示审阅者希望在一个案例中使用一组文档的方式。 他们希望查看审阅集中存在哪些想法,以及哪些文档正在讨论这些想法。 如果他们找到感兴趣的特定文档,他们希望能够看到讨论类似想法的文档。
电子数据展示中的 主题 功能尝试通过分析审阅集中讨论 的主题 并将主题分配给审阅集中的文档来模拟人类对文档的推理方式。 在电子数据展示中,主题更进一步,并标识每个审阅集和文档中 的主导主题 。 主导主题是文档中出现频率最高的主题。
主题如何工作?
“主题”功能分析审阅集中包含文本的文档,以分析审阅集中所有文档中显示的常见主题。 电子数据展示将主题分配給显示这些主题的文档。 它还使用文档中能够代表主题的文字来标记每个主题。 由于文档可以包含各种类型的主题,因此电子数据展示通常会为审阅集和文档分配多个主题。 这称为 “主题”列表。 在审阅集或文档中最突出的主题被指定为其 主导主题。
配置主题
主题支持案例,并应用于其中的所有审阅集。 可以在创建新案例时配置主题设置,也可以更新现有案例的主题设置。
若要在案例中配置主题,请完成以下步骤:
- 转到 Microsoft Purview 门户 ,并使用分配有电子数据展示权限的用户帐户的凭据登录。
- 选择电子数据展示解决方案卡然后选择左侧导航栏中的“案例 (预览) ”。
- 选择案例,然后选择 “案例设置”。
- 在 “案例设置 ”页上,选择“ 搜索 & 分析”。
- 选择以下主题选项(如果适用):
- 最大主题数: 指定在对事例中包含的审阅集中的数据运行分析时可以生成的最大主题数。 有关限制的详细信息,请参阅 电子数据展示中的限制。
- 在主题中包含数字: 生成主题时,将包含标识主题) 的数字 (。
- 动态调整主题的最大数量: 在某些情况下,审阅集中可能没有足够的文档来为案例生成所需数量的主题。 启用此设置后,将动态调整主题的最大数量,而不是尝试强制实施最大主题数。
- 如果需要排除与主题关联的关键字,请在 “忽略 文本”字段中输入所需的文本或正则表达式。 在 “应用于 ”字段中,选择“ 主题 ”以将文本或正则表达式应用于所有主题。
- 选择“保存”。
创建新案例后,当审阅集添加到案例时,将自动对数据运行分析。 评审集的主题是作为分析处理的一部分生成的。
创建审阅集查询
如果选中“分析后自动创建供审阅保存的搜索”复选框,电子数据展示自动生成名为“供审阅”的审阅集查询。
此查询从审阅集中筛选出重复项,使你可以快速查看审阅集中的唯一项目。 本查询仅会对案例的审阅集运行分析时创建。 有关审阅集查询的详细信息,请参阅 查询审阅集中的数据。
忽略文本
在某些情况下,某些文本会降低分析质量,例如,无论电子邮件的内容如何,都会添加到电子邮件的冗长免责声明。 如果知道应忽略的文本,可以通过指定文本字符串和分析功能, (应排除文本的准重复项、电子邮件线程、主题和相关性) ,将其从分析中排除。 还支持对忽略的文本使用正则表达式 (正则表达式) 。
光学字符识别 (OCR)
启用此设置后,OCR 处理将在图像文件上运行。 OCR 处理在以下情况下运行:
- 将数据源添加到事例时:当 OCR 应用于图像文件时,这些文件中的文本在搜索结果中可用。 如果在搜索查询) 中选择此选项,则会在高级索引过程中执行 OCR 处理 (。 OCR 仅在高级索引期间处理的项上运行。 例如,如果在高级索引期间处理已部分编制索引或存在其他索引错误的大型 PDF 文件,则该文件已应用 OCR。 OCR 处理仅适用于在高级索引过程中重新编制索引的文件。 这意味着在某些情况下,数据源可能会添加到案例中,但某些电子邮件附件不会针对 OCR 进行处理,因为在高级索引编制期间不会处理这些文件。
- 从其他数据源添加内容时:这适用于不与案例关联的数据源以及搜索结果添加到审阅集的时间。
将数据添加到审阅集后,可以查看、搜索、标记和分析图像文本。 可以在审阅集中所选图像文件的文本查看器中查看提取的文本。 有关更多信息,请参阅: