在多語言文件上執行 OCR
光學字元辨識 (OCR) 可讓您從影像或畫面中尋找和擷取文字。
雖然大多數案例要求您使用特定語言來處理文字,但是在部分案例中,來源是多語系。
若要對這些來源執行 OCR,請在相應的 OCR 動作中使用 Tesseract 引擎,並在引擎設定中啟用使用其他語言選項。
啟用使用其他語言選項後,該動作會顯示兩個附加設定:語言縮寫和語言資料路徑欄位。
語言縮寫欄位會向引擎指示在 OCR 期間要尋找的語言。 語言資料路徑欄位包含用於訓練 OCR 引擎的語言資料檔案 (.traineddata)。
下載所需語言的資料檔案後,將它們移至通用資料夾,使其在同一路徑下可以使用。
接著,在語言資料路徑欄位中選取 [建立的資料夾],並在語言縮寫欄位填入相應的語言代碼。 若要分隔語言代碼,請使用加號字元 (+)。
注意
您可以在語言資料檔案的來源中找到所有可用的語言代碼。 在下列範例中,使用的代碼代表特拉古文、印度文和英文。