Выполнение OCR для многоязычных документов

Статья
03/16/2023

Оптическое распознавание символов (OCR) позволяет находить и извлекать текст из изображений или экрана.

Хотя в большинстве сценариев требуется обрабатывать текст на определенном языке, бывают случаи, когда источники являются многоязычными.

Чтобы выполнить OCR для этих источников, используйте механизм Tesseract в соответствующем действии OCR и включите параметр Использовать другие языки в параметрах подсистемы.

Снимок экрана параметра Использовать другие языки в действии Извлечь текст путем распознавания.

Когда параметр Использовать другие языки включена, действие отображает две дополнительные параметра: поля Сокращение языка и Путь к языковым данным.

Поле Сокращение языка указывает подсистеме, на каком языке искать во время распознавания текста. Поле Путь к языковым данным содержит файлы языковых данных (.traineddata) используемые для обучения подсистемы распознавания текста.

Снимок экрана полей Сокращение языка и Путь к языковым данным в действии Извлечь текст путем распознавания.

После загрузки файлов данных для необходимых языков переместите их в общую папку, чтобы они были доступны по тому же пути.

Далее выберите созданную папку в поле Путь к языковым данным и заполните соответствующие коды языков в поле Сокращение языка. Чтобы разделить коды языков, используйте знак плюса (+).

Заметка

Вы можете найти все доступные языковые коды в источнике файлов языковых данных. В следующем примере используемые коды представляют телугу, хинди и английский язык.

Снимок экрана заполненных полей Сокращение языка и Путь к языковым данным в действии Извлечь текст путем распознавания.

Поделиться через

Выполнение OCR для многоязычных документов

Дополнительные ресурсы