Executar o OCR em documentos multilingues
O reconhecimento ótico de carateres (OCR) permite-lhe localizar e extrair texto a partir de imagens ou do ecrã.
Embora a maioria dos cenários exija que processe o texto numa linguagem específica, há casos em que as origens são multilíngues.
Para efetuar o OCR nestas origens, utilize um motor Tesseract na respetiva ação OCR e ative a opção Utilizar outros idiomas nas definições do motor.
Quando a opção Utilizar outros idiomas está ativada, a ação apresenta duas definições adicionais: os campos Abreviatura do idioma e Caminho de dados do idioma.
O campo Abreviatura do idioma indica ao motor qual é o idioma a procurar durante o OCR. O campo Caminho de dados do idioma contém os ficheiros de dados do idioma (.traineddata) utilizados para treinar o motor de OCR.
Depois de transferir os ficheiros de dados para os idiomas necessários, mova-os para uma pasta comum para os disponibilizar no mesmo caminho.
Em seguida, selecione a pasta criada no campo Caminho de dados do idioma e povoe os códigos de idioma correspondentes no campo Abreviatura do idioma. Para separar os códigos de idioma, utilize o sinal de adição (+).
Nota
Pode encontrar todos os códigos de idioma disponíveis na origem dos ficheiros de dados de idiomas. No exemplo seguinte, os códigos utilizados representam télego, hindi e inglês.