标记文档

通过标记您上传的文档,您将教您的 AI Builder 模型提取您指定的字段和表。

若要开始标记,请在右侧面板上选择其中一个集合。

标记字段

要标记字段,在您要标记的字段周围绘制一个矩形,然后选择它对应的字段名称。

在文档中标记字段的动画。

您随时可以通过调整大小来调整选择。

如果某个字段在一行结束,在另一行开始,您可以使用继续标记选项对其进行标记。

标记多个字词和换行符的动画。

您还可以在 Windows 中使用 Control 键或 在 macOS 中使用 Command ⌘ 键来一次标记多个字词。 您还可以使用 Shift 键选择第一个和最后一个字词来标记两者之间的所有字词。

当您在文档中悬停在字词上方时,可能会出现浅蓝色框。 这意味着您可以围绕这些单词绘制矩形来选择字段。

选择字段特写的屏幕截图。

仅适用于自定义发票模型

您可以通过重新绘制现有边界框来替代默认字段的行为。

替代默认字段行为的屏幕截图。

未在文档中自动检测到的发票默认字段标记为“不在文档中”。 如果在文档中存在字段,您可以将此更改为文档中存在以进行手动标记。

文档中存在的字段的屏幕截图。

标记时,选择自定义以显示已添加的未标记字段的列表,并选择默认以显示标记为“文档中存在”的未标记的默认字段。

默认视图的屏幕截图。

标记表

  1. 在您感兴趣的文档中的表格周围画一个矩形,然后选择它对应的表格名称。 右侧面板的内容将更改。

  2. 通过在行分隔符之间左键单击绘制

  3. Ctrl + 左键单击绘制

  4. 设置好行和列后,通过选择标头列并将其映射到所需的列来分配要提取的标头。

  5. 如何提取表的预览将显示在右侧面板上。

  6. 如果表标头已标记,请选择忽略第一行,让表标头不会被提取为表内容。

以下动画演示了此过程:

在文档中标记表的动画。

定义表的行和列的另一种方法是选择屏幕顶部的分隔行和列

分隔行和列的屏幕截图。

使用高级标记模式

高级标记模式允许您在单元格级别标记表。 将此模式用于复杂的表,如:

  • 偏斜的表,无法使用网格标记。
  • 当您需要提取嵌套项时,如单元格中的项目。

假设是以下示例中的表,为了提取单价,我们将在选择要提取的信息步骤将其定义为一个单独的列。 我们将说明单价数量金额分别定义为表的一列,然后使用高级标记模式相应地标记它们。 请见下面的动画。

分隔行和列的动画。

您可以在默认模式下开始标记以快速捕获所有行和列。 然后切换到高级模式调整每个单元格、标记嵌套项。

表中的嵌套项

您可以通过将嵌套的项定义为列来标记在行中嵌套的项。 假设是以下示例中的表,为了提取单价,我们将在本主题前面的选择要提取的信息步骤将其定义为一个单独的列。 将说明单价数量金额分别定义为表的一列,然后对它们进行相应地标记。

在表中标记嵌套项的屏幕截图。

多页表

如果表跨越多个页面,请确保在所有页面上标记它。 在一个页面上完成表的标记后,选择此表延续到下一页,在下一页面继续标记表。 这样,您可以训练模型表可以跨多个页面。

显示选择“此表延续到下一页”选项以继续标记跨多个页面的表的屏幕截图。

您标记了表所在的所有页面后, 选择完成将表标记为已完全标记。

您可以标记具有合并单元格、嵌套项、边框或无边框的复杂表,甚至可以标记咖啡污渍等意外元素,如以下示例所示。

显示在所有页面标记表后选择“完成”选项的屏幕截图。

小费

作为一种最佳做法,请确保上载包含预期变化的训练文档。 例如,包含整个表位于一个页面以及表跨越两个或更多页面的示例。

标记复选框

要标记复选框,在您有兴趣提取的复选框周围绘制一个矩形,然后选择它对应的复选框名称。

标记复选框的动画。

如果文档质量较低,AI Builder 可能无法检测到复选框。 如果无法标记复选框,请执行下列操作:

  1. 在右侧面板上,选择要提取的复选框旁边的三个点。

  2. 选择文档中不存在

AI Builder 支持检测和提取复选框和单选按钮等选择标记,通过不同的标记来指示选择是否被标记。

字段、复选框、表,不在文档中或不在集合中

如果某个字段、复选框或表不在您为培训而上传的文档或集合中,请在字段、复选框或表旁边的右侧面板上选择在文档中不可用在集合中不可用

不在文档或集合中的字段或表的动画。

标记所有集合中的所有文档

您上传的所有文档都会显示出来供您标记。 如果您创建了多个集合,请标记所有集合中的所有文档。

如果无法在文档中标记字段,请转到无法为此文档加载字段了解可能的解决方法。

下一步

提取日期和数字

培训:使用 AI Builder 处理自定义文档(模块)