创建您的第一个模型
以下过程将向您展示如何在 AI Builder 中创建文档处理模型。 本引导式体验可引导完成模型创建流程的每个步骤。 您可以保存工作并随时返回继续操作。 在各个步骤之间切换时,将自动保存进度。
登录到 AI Builder
按照以下步骤登录到 AI Builder:
转到 Power Automate 并使用组织帐户登录。
在左侧导航窗格中,选择 AI 中心,然后选择 AI 模型。 如果您没有看到 AI 中心选项,请选择更多选项,您应该能够在弹出窗口中找到 AI 中心。
选择从文档中提取自定义信息。
如果您想要使用自己的文档创建模型,请确保您有至少五个使用相同布局的示例。 否则,您可以使用我们将在本引导式体验中使用的示例数据。 您可以下载英语版本或日语版本的示例数据
选择创建自定义模型。
选择文档类型
当选择文档类型时,有三个选项可用:
结构化和半结构化文档。 在结构化和半结构化文档中,给定布局中的字段、表、复选框和其他项均处于类似位置。 结构化文档和半结构化文档的示例包括发票、采购订单、交货单和税单。
非结构化和任意格式的文档。 在非结构化文档中没有固定结构,通常具有不固定的段落数目。 非结构化文档的示例包括合同、工作说明书、信件等。
发票。 发票单据采用标准应付帐款格式。 此模型类型提供标准字段,您可以教此模型提取更多自定义数据或更新标准数据。 此类文档示例包括发票和采购订单。
选择结构化文档,然后选择下一步。
选择要提取的信息
在此步骤中,我们定义要指导模型如何提取的字段和表。
提供的英语版本或日语版本的示例数据是来自两个不同提供商的发票。 我们将定义要提取的以下字段:
发票编号
客户 ID
总金额
截止日期
选择 + 添加并选择文本字段。 然后选择下一步。
针对文本字段名称输入发票编号并选择完成,针对客户 ID 重复此步骤。
选择 + 添加并选择编号字段(预览)。 然后选择下一步。
针对数字字段名称输入总金额并选择完成。
选择 + 添加,然后选择日期字段(预览)。
针对日期字段名称输入截止日期并选择完成。
该模型将学习如何从文档中提取这些字段。
我们还想要提取发票上显示的每个行物料的描述和总金额。 为此,我们定义表名称物料,其中包含列描述和物料总计。
选择添加和表,然后选择下一步。
定义为表名称物料。 接下来,我们定义两个列:描述和物料总计。
选择列 1,然后将其重命名为描述。 选择确认。
选择 + 新建列,输入列名称物料总计。 然后选择添加。 最后选择完成。
选择下一步以继续模型中的下一步。
定义集合并上传文档
集合是一组共享相同布局的文档。 针对您希望模型处理的具有不同布局的文档,创建同样多的集合。 因为我们有两个发票提供商,并且每个发票提供商使用不同的发票模板,因此我们定义两个集合。
选择新建集合并将第一个集合的名称更改为 Adatum。
添加第二个新建集合并将第二个集合命名为 Contoso。
现在,我们已经创建了两个集合,需要为每个集合上传至少五个示例。
对于名为 Adatum 的集合,上传 AI Builder Document processing Sample Data/Adatum/Train 文件夹中的五个文档。 您将对 Contoso 训练文档执行相同的操作。
在每个集合中选择 + 图标,并为每个公司向其各自的集合中添加五个“Train”文档。
将示例文档上传到每个集合后,选择下一步以继续。
标记文档
现在,应该指导 AI 模型如何提取已定义的字段和表。 首先要标记已上传的示例文档。 当您标记(或批注)每个文档中的所有预期字段时,您将看到该文档上出现一个复选标记,并且上角的红点将消失。
若要开始标记流程,请在右侧面板上选择 Contoso 集合。
标记字段
让我们首先标记定义的字段发票编号、截止日期和总金额。 若要标记字段,请在文档上的字段周围绘制一个矩形,然后选择它所对应的字段名称。
您可以随时调整大小以调整您的选择。
当您将鼠标悬停在文档中的不同单词上时,会显示浅蓝色框。 这些框指示您可以在这些单词周围绘制一个矩形以选择字段。
文档中没有字段或表
并非所有定义的字段和表都必须包含在所有文档中。 在 Contoso 集合中,您将看到客户 ID 字段不存在。 通过转到右侧面板上的字段或表,选择字段右侧的省略号 (...),然后选择在文档中不可用,您可以告诉 AI 模型这些字段不存在。
标记表
若要标记表:
在您感兴趣的文档中的表周围绘制一个矩形,然后选择它所对应的表名称。
右侧面板的内容将更改。
在行分隔符之间单击左键可绘制行。
Ctrl + 左键单击(macOS 为 ⌘ 左键单击)可绘制列。
设置好行和列后,通过选择标头列并将其映射到所需的列来分配要提取的标头。
包含提取数据的表如何显示在右侧面板上的预览。
如果表的标头已标记,请选择“忽略第一行”,这样表的标头就不会提取为表内容。
标记所有文档
完成对一个文档的标记后,通过单击右上角的文档预览下的导航箭头,移动到下一个要标记的文档。
完成对一个集合的标记后,导航返回到集合列表以标记第二个集合。
模型摘要和训练
在已标记所有集合中的所有文档后,请按照以下步骤操作:
选择屏幕底部的下一步按钮。
查看模型摘要。 在要提取的信息下,您将看到客户 ID 和截止日期仅显示在 5 个示例(共 10 个)中,而其他所有内容都显示在全部 10 个示例中。
如果一切看起来都正常,请选择训练。
后续步骤
现在,您已在 AI Builder 中创建文档处理模型,您将了解如何测试模型并在 Power Apps 和 Power Automate 中使用它。