Dela via


Utföra OCR på flerspråkiga dokument

Med hjälp av teckenidentifiering (OCR) kan du söka efter och extrahera text från bilder eller skärmen.

De flesta scenarier kräver att du hanterar text på ett visst språk, men det finns fall där källorna är flerspråkiga.

Om du vill utföra OCR på dessa källor använder du en Tesseract-motorn i respektive OCR-åtgärd och aktiverar alternativet Använd andra språk i motorns inställningar.

Skärmbild av alternativet Använd andra språk i åtgärden Extrahera text med OCR.

När alternativet Använd andra språk är aktiverat visas ytterligare två inställningar för åtgärden: fälten Språkförkortning och Sökväg till språkdata.

Fältet Språkförkortning anger för motorn vilket språk som ska sökas under OCR. Fältet Sökväg till språkdata innehåller språkdatafilerna (.traineddata) som används för att utbilda OCR-motorn.

Skärmbild av fälten Språkförkortning och Språkdatasökväg i åtgärden Extrahera text med OCR.

När du har hämtat datafilerna för de språk som behövs flyttar du dem till en gemensam mapp så att de blir tillgängliga under samma väg.

Markera sedan den skapade mappen i fältet Sökväg till språkdata och fyll i motsvarande språkkoder i fältet Språkförkortning. Om du vill separera språkkoderna använder du plustecknet (+).

Kommentar

Du hittar alla tillgängliga språkkoder i källan till språkdatafilerna. I följande exempel representerar de använda koderna telugu, hindi och engelska.

Skärmbild av ifyllda fälten Språkförkortning och Språkdatasökväg i åtgärden Extrahera text med OCR.