Executar o OCR em documentos multilingues

Artigo
03/16/2023

O reconhecimento ótico de carateres (OCR) permite-lhe localizar e extrair texto a partir de imagens ou do ecrã.

Embora a maioria dos cenários exija que processe o texto numa linguagem específica, há casos em que as origens são multilíngues.

Para efetuar o OCR nestas origens, utilize um motor Tesseract na respetiva ação OCR e ative a opção Utilizar outros idiomas nas definições do motor.

Captura de ecrã da opção Utilizar outros idiomas na ação Extrair texto com OCR.

Quando a opção Utilizar outros idiomas está ativada, a ação apresenta duas definições adicionais: os campos Abreviatura do idioma e Caminho de dados do idioma.

O campo Abreviatura do idioma indica ao motor qual é o idioma a procurar durante o OCR. O campo Caminho de dados do idioma contém os ficheiros de dados do idioma (.traineddata) utilizados para treinar o motor de OCR.

Captura de ecrã dos campos Abreviatura do idioma e Caminho de dados do idioma na ação Extrair texto com OCR.

Depois de transferir os ficheiros de dados para os idiomas necessários, mova-os para uma pasta comum para os disponibilizar no mesmo caminho.

Em seguida, selecione a pasta criada no campo Caminho de dados do idioma e povoe os códigos de idioma correspondentes no campo Abreviatura do idioma. Para separar os códigos de idioma, utilize o sinal de adição (+).

Nota

Pode encontrar todos os códigos de idioma disponíveis na origem dos ficheiros de dados de idiomas. No exemplo seguinte, os códigos utilizados representam télego, hindi e inglês.

Captura de ecrã dos campos povoados Abreviatura do idioma e Caminho de dados do idioma na ação Extrair texto com OCR.

Partilhar via

Executar o OCR em documentos multilingues

Recursos adicionais