从文档中提取日期和数字

虽然许多要提取的字段都是简单的文本,但在某些情况下,要提取的信息是日期或包含金额的数字。

将此数据导入目标系统可能很麻烦,需要大量的自定义转换逻辑。 大多数导入连接器和 API 仅接受 ISO 8601 格式的规范化日期,例如 YYYY-MM-DD。 它们也只接受使用点作为小数点 (.) 分隔符的数字,而没有像 NNN.DD 这样的千位分隔符。

要了解有关日期格式的更多信息,请访问 ISO 8601 日期和时间格式

我们添加了在向导字段创建步骤中声明此类型并选择日期或数字约定(相当于区域设置)的功能。

日期约定

以下示例显示了带有日期字段的抵押贷款语句。

“概述”中“日期字段”的屏幕截图。

以下示例显示了日期字段格式。

“日期字段”格式的屏幕截图。

支持的日期格式

定义字段时,请在年、月、日月、日、年日、月、年中进行选择。

以下字符可以用作日期分隔符:,-/.\。 空格不能用作分隔符。 例如:

  • 01,01,2020
  • 01-01-2020
  • 01/01/2020

日和月可以分别写成一位或两位数,年可以写成两位数或四位数:

  • 1-1-2020
  • 1-01-20

如果日期字符串具有 8 位数,则分隔符是可选的:

  • 01012020
  • 01 01 2020

月份也可以写成它的全称或简称。 如果使用名称,则分隔符为可选。 但是,这种格式的识别可能不如其他格式准确。

  • 01/1 月/2020
  • 01Jan2020
  • 2020 年 1 月 1 日

数字约定

以下示例显示了一个带有数字字段的抵押贷款语句。

“概述”中“数字字段”的屏幕截图。

以下示例显示了数字字段格式。

“数字字段”格式的屏幕截图。

备注

对于每个字段,此模型的所有集合的给定字段只允许一个约定。 例如,如果您通过选择使用逗号 (,) 作为小数点分隔符来提取字段金额,则以下文本 1234,56 或 1 234,56 将转换为 1234.56。 将不转换格式为 12,34,576.78 或 1,234.56 的金额。

在提取过程中,将根据提供的约定自动转换文本。 可以使用 YOURFIELDNAME value 结果检索此转换后的值。 如果无法转换,则该值为空。 使用 YOURFIELDNAME text 结果可以检索原始文本。

支持的数字格式

定义字段时,请选择使用点 (.) 作为小数分隔符使用逗号 (,) 作为小数分隔符

当小数分隔符是点 (.) 时,可以省略千位分隔符,可以使用逗号 (,) 或空格。 例如:

  • 1234.56
  • 1,234.56
  • 1 234.56

当小数分隔符是逗号 (,) 时,可以省略千位分隔符或空格。 例如:

  • 1234,56
  • 1 234.56

下一步

训练和发布文档处理模型

培训:使用 AI Builder 处理自定义文档(模块)