OCR für mehrsprachige Dokumente durchführen

Artikel
03/16/2023

Optische Zeichenerkennung (OCR) ermöglicht Ihnen das Auffinden und Extrahieren von Text aus Bildern oder dem Bildschirm.

Obwohl die meisten Szenarien erfordern, dass Sie Text in einer bestimmten Sprache verarbeiten, gibt es Fälle, in denen die Quellen mehrsprachig sind.

Um OCR an diesen Quellen durchzuführen, verwenden Sie ein Tesseract-Modul in der entsprechenden OCR-Aktion und aktivieren Sie die Option Andere Sprachen verwenden in den Moduleinstellungen.

Screenshot der Option „Andere Sprachen verwenden“ in der Aktion „Text mit OCR extrahieren“.

Wenn die Option Andere Sprachen verwenden aktiviert ist, zeigt die Aktion zwei zusätzliche Einstellungen an: die Felder Sprachkürzel und Sprachdatenpfad.

Das Feld Sprachkürzel zeigt den Modul an, nach welcher Sprache während OCR gesucht werden soll. Das Feld Sprachdatenpfad enthält die Sprachdatendateien (.traineddata) zum Trainieren des OCR-Moduls.

Screenshot der Felder „Abkürzung für Sprache“ und „Sprachdatenpfad“ in der Aktion „Text mit OCR extrahieren“.

Nachdem Sie die Datendateien für die benötigten Sprachen heruntergeladen haben, verschieben Sie sie in einen gemeinsamen Ordner, um sie unter demselben Pfad verfügbar zu machen.

Wählen Sie als Nächstes den erstellten Ordner im Feld Sprachdatenpfad und tragen Sie die entsprechenden Sprachcodes in das Feld Sprachkürzel ein. Um die Sprachcodes zu trennen, verwenden Sie das Pluszeichen (+).

Notiz

Alle verfügbaren Sprachcodes finden Sie in der Quelle der Sprachdateien. Im folgenden Beispiel stehen die verwendeten Codes für Telugu, Hindi und Englisch.

Screenshot der befüllten Felder „Abkürzung für Sprache“ und „Sprachdatenpfad“ in der Aktion „Text mit OCR extrahieren“.

Freigeben über

OCR für mehrsprachige Dokumente durchführen

Feedback

Zusätzliche Ressourcen