你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

有关生成带标记的数据集的提示

此内容适用于:选中标记 v4.0 (GA) | 以前的版本:蓝色复选标记 v3.1 (GA) 蓝色复选标记 v3.0 (GA)

此内容适用于:选中标记 v3.1 (GA) | 最新版本:紫色复原标记 v4.0 (GA) | 以前的版本:蓝色复选标记 v3.0

此内容适用于:选中标记 v3.0 (GA) | 最新版本:紫色复原标记 v4.0 (GA) 紫色复原标记 v3.1

本文重点介绍在 Document Intelligence Studio 中标记自定义模型数据集的最佳方法。 当有大量标签、长文档或具有不同结构的文档时,标记文档可能很耗时。 这些提示应该可以帮助你更有效地标记文档。

视频:自定义标签最佳做法

  • 以下视频是两个演示文稿中的第二个,旨在帮助你生成具有更高准确度的自定义模型(第一个演示文稿介绍如何创建均衡数据集)。

  • 我们将探讨标记所选文档的最佳做法。 使用语义相关且一致的标记,你应会看到模型性能的改进。

Studio 现在包含一个搜索框,适用于你知道需要查找要标记的特定字词,但不知道它们在文档中的位置的实例。 只需搜索单词或短语并导航到文档中的特定部分即可标记出现的位置。

自动标记表

当表有很多行或密集的文本时,表可能很难标记。 如果布局表提取了所需的结果,应该直接使用该结果并跳过标记过程。 如果布局表不完全符合需要,可以首先从布局提取的值生成表字段。 首先选择页上的表图标,然后选择自动标记按钮。 然后可以根据需要编辑这些值。 自动标记目前只支持单页表。

按住 Shift 选择

标记大范围的文本时,无需标记范围内的每个单词,而可以在选择单词时按住 Shift 键以加快标记速度并确保不会遗漏文本范围内的任何单词。

区域标记

标记较大文本范围的第二种选择是使用区域标记。 使用区域标记时,OCR 结果会在训练时填充到值中。 按住 Shift 选择和区域标记之间的差别仅在于前者提供视觉反馈。

标记重叠字段

字段和表单元格支持重叠字段。 如果你预期分析结果包含重叠字段,则应将至少一个样本添加到训练数据集,并标记特定的字段重叠。 若要标记重叠字段,请使用区域标记功能选择每个字段的区域。 支持完整重叠和部分重叠。 只能为两个字段标记文档中的任何一个单词。

字段子类型

创建字段时,选择正确的子类型以最大程度地减少后处理,例如,为日期选择 dmy 选项以提取 dd-mm-yyyy 格式的值。

后续步骤