对多语言文档执行 OCR

光学字符识别 (OCR) 使您能够从图像或屏幕中查找和提取文本。

虽然大多数情况要求您采用特定语言处理文本,但存在源是多语言的情况。

若要对这些源执行 OCR,请在相应的 OCR 操作中使用 Tesseract 引擎,然后在引擎设置中启用使用其他语言选项。

“使用 OCR 提取文本”操作中“使用其他语言”选项的屏幕截图。

启用使用其他语言选项后,该操作将显示两个额外设置:语言缩写语言数据路径字段。

语言缩写字段指示要在 OCR 期间查找的语言的引擎。 语言数据路径字段包含用于训练 OCR 引擎的语言数据文件 (.traineddata)。

“使用 OCR 提取文本”操作中“语言缩写”和“语言数据路径”字段的屏幕截图。

在为所需语言下载数据文件后,将其移动到常用文件夹以使其在同一路径下可用。

接下来,在语言数据路径字段中选择创建的文件夹,然后在语言缩写字段中填充相应的语言代码。 若要分隔语言代码,请使用加号字符 (+)。

备注

您可以在语言数据文件的源中查找所有可用的语言代码。 在下面的示例中,使用的代码表示泰卢固语、印地语和英语。

“使用 OCR 提取文本”操作中填充的“语言缩写”和“语言数据路径”字段的屏幕截图。