创建您的第一个模型

已完成

以下过程将向您展示如何在 AI Builder 中创建文档处理模型。 本引导式体验可引导完成模型创建流程的每个步骤。 您可以保存工作并随时返回继续操作。 在各个步骤之间切换时,将自动保存进度。

登录到 AI Builder

按照以下步骤登录到 AI Builder:

  1. 转到 Power Automate 并使用组织帐户登录。

  2. 在左侧导航窗格中,选择 AI 中心,然后选择 AI 模型。 如果您没有看到 AI 中心选项,请选择更多选项,您应该能够在弹出窗口中找到 AI 中心

  3. 选择从文档中提取自定义信息

  4. 如果您想要使用自己的文档创建模型,请确保您有至少五个使用相同布局的示例。 否则,您可以使用我们将在本引导式体验中使用的示例数据。 您可以下载英语版本日语版本的示例数据

  5. 选择创建自定义模型

选择文档类型

当选择文档类型时,有三个选项可用:

  • 结构化和半结构化文档。 在结构化和半结构化文档中,给定布局中的字段、表、复选框和其他项均处于类似位置。 结构化文档和半结构化文档的示例包括发票、采购订单、交货单和税单。

  • 非结构化和任意格式的文档。 在非结构化文档中没有固定结构,通常具有不固定的段落数目。 非结构化文档的示例包括合同、工作说明书、信件等。

  • 发票。 发票单据采用标准应付帐款格式。 此模型类型提供标准字段,您可以教此模型提取更多自定义数据或更新标准数据。 此类文档示例包括发票和采购订单。

选择结构化文档,然后选择下一步

选择要提取的信息

在此步骤中,我们定义要指导模型如何提取的字段和表。

提供的英语版本日语版本的示例数据是来自两个不同提供商的发票。 我们将定义要提取的以下字段:

  • 发票编号

  • 客户 ID

  • 总金额

  • 截止日期

  1. 选择 + 添加并选择文本字段。 然后选择下一步

  2. 针对文本字段名称输入发票编号并选择完成,针对客户 ID 重复此步骤。

  3. 选择 + 添加并选择编号字段(预览)。 然后选择下一步

  4. 针对数字字段名称输入总金额并选择完成

  5. 选择 + 添加,然后选择日期字段(预览)

  6. 针对日期字段名称输入截止日期并选择完成

    该模型将学习如何从文档中提取这些字段。

    我们还想要提取发票上显示的每个行物料的描述和总金额。 为此,我们定义表名称物料,其中包含列描述物料总计

  7. 选择添加,然后选择下一步

  8. 定义为表名称物料。 接下来,我们定义两个列:描述物料总计

  9. 选择列 1,然后将其重命名为描述。 选择确认

  10. 选择 + 新建列,输入列名称物料总计。 然后选择添加。 最后选择完成

  11. 选择下一步以继续模型中的下一步。

定义集合并上传文档

集合是一组共享相同布局的文档。 针对您希望模型处理的具有不同布局的文档,创建同样多的集合。 因为我们有两个发票提供商,并且每个发票提供商使用不同的发票模板,因此我们定义两个集合。

  1. 选择新建集合并将第一个集合的名称更改为 Adatum

  2. 添加第二个新建集合并将第二个集合命名为 Contoso

    现在,我们已经创建了两个集合,需要为每个集合上传至少五个示例。

    对于名为 Adatum 的集合,上传 AI Builder Document processing Sample Data/Adatum/Train 文件夹中的五个文档。 您将对 Contoso 训练文档执行相同的操作。

  3. 在每个集合中选择 + 图标,并为每个公司向其各自的集合中添加五个“Train”文档。

  4. 将示例文档上传到每个集合后,选择下一步以继续。

标记文档

现在,应该指导 AI 模型如何提取已定义的字段和表。 首先要标记已上传的示例文档。 当您标记(或批注)每个文档中的所有预期字段时,您将看到该文档上出现一个复选标记,并且上角的红点将消失。

若要开始标记流程,请在右侧面板上选择 Contoso 集合。

标记字段

让我们首先标记定义的字段发票编号截止日期总金额。 若要标记字段,请在文档上的字段周围绘制一个矩形,然后选择它所对应的字段名称。

您可以随时调整大小以调整您的选择。

当您将鼠标悬停在文档中的不同单词上时,会显示浅蓝色框。 这些框指示您可以在这些单词周围绘制一个矩形以选择字段。

文档中没有字段或表

并非所有定义的字段和表都必须包含在所有文档中。 在 Contoso 集合中,您将看到客户 ID 字段不存在。 通过转到右侧面板上的字段或表,选择字段右侧的省略号 (...),然后选择在文档中不可用,您可以告诉 AI 模型这些字段不存在。

标记表

若要标记表:

  1. 在您感兴趣的文档中的表周围绘制一个矩形,然后选择它所对应的表名称。

    右侧面板的内容将更改。

  2. 在行分隔符之间单击左键可绘制行。

  3. Ctrl + 左键单击(macOS 为 ⌘ 左键单击)可绘制列。

  4. 设置好行和列后,通过选择标头列并将其映射到所需的列来分配要提取的标头。

  5. 包含提取数据的表如何显示在右侧面板上的预览。

  6. 如果表的标头已标记,请选择“忽略第一行”,这样表的标头就不会提取为表内容。

标记所有文档

完成对一个文档的标记后,通过单击右上角的文档预览下的导航箭头,移动到下一个要标记的文档。

完成对一个集合的标记后,导航返回到集合列表以标记第二个集合。

模型摘要和训练

在已标记所有集合中的所有文档后,请按照以下步骤操作:

  1. 选择屏幕底部的下一步按钮。

  2. 查看模型摘要。 在要提取的信息下,您将看到客户 ID 和截止日期仅显示在 5 个示例(共 10 个)中,而其他所有内容都显示在全部 10 个示例中。

  3. 如果一切看起来都正常,请选择训练

后续步骤

现在,您已在 AI Builder 中创建文档处理模型,您将了解如何测试模型并在 Power Apps 和 Power Automate 中使用它。