Leitfaden für Dokumentformate und Namenskonventionen
Jede Datei, die in Custom Translator verwendet wird, muss mindestens vier Zeichen umfassen.
Diese Tabelle zeigt alle unterstützten Dateiformate, die Sie zum Erstellen Ihres Übersetzungssystems verwenden können:
Format | Erweiterungen | Beschreibung |
---|---|---|
XLIFF |
.XLF , .XLIFF |
Ein Format für parallele Dokumente, das auch Translation Memory-Systeme exportiert. Die verwendeten Sprachen werden in der Datei definiert. |
TMX |
.TMX |
Ein Format für parallele Dokumente, das auch Translation Memory-Systeme exportiert. Die verwendeten Sprachen werden in der Datei definiert. |
ZIP |
.ZIP |
Ein Archivdateiformat. |
Locstudio |
.LCL |
Ein Microsoft-Format für parallele Dokumente. |
Microsoft Word | .DOCX |
Das Format von Microsoft Word. |
Adobe Acrobat | .PDF |
Dies ist das Portable Document Format von Adobe Acrobat. |
HTML |
.HTML , .HTM |
HyperText Markup Language-Dokument |
Textdatei | .TXT |
Mit UTF-16 oder UTF-8 codierte Textdateien. Der Dateiname darf keine japanischen Zeichen enthalten. |
Ausgerichtete Textdatei | .ALIGN |
Sie können die spezielle Erweiterung .ALIGN verwenden, wenn Sie wissen, dass alle Sätze im Dokumentenpaar einander genau zugeordnet sind. Wenn Sie eine .ALIGN -Datei bereitstellen, richtet der benutzerdefinierte Translator die Sätze nicht für Sie aus. |
Excel-Datei | .XLSX |
Excel-Datei (2013 oder höher). Die erste Zeile in der Tabellenkalkulation muss der Sprachcode sein. |
Wörterbuchformate
Für Wörterbücher unterstützt der benutzerdefinierte Translator alle Dateiformate, die für Trainingssets unterstützt werden. Wenn Sie ein Wörterbuch im Excel-Format verwenden, sollte die erste Zeile der Tabellenkalkulation den Sprachcode enthalten.
ZIP-Dateiformate
Dokumente können in einer einzigen ZIP-Datei gruppiert und hochgeladen werden. Der benutzerdefinierte Translator unterstützt die ZIP-Dateiformate (ZIP
, GZ
undTGZ
).
Jedes Dokument in der ZIP-Datei mit der Erweiterung TXT, HTML, HTM, PDF, DOCX, ALIGN muss dieser Benennungskonvention befolgen:
{Dokumentname}_{Sprachcode}, wobei {Dokumentname} der Name Ihres Dokuments ist, {Sprachcode} die ISO-Sprach-ID (zwei Zeichen), die angibt, dass das Dokument Sätze in dieser Sprache enthält. Dem Sprachcode muss ein Unterstrich (_) vorausgehen.
Die Dateien sollten beispielsweise data_en
und data_es
genannt werden, um zwei parallele Dokumente in einer ZIP-Datei für ein Englisch-zu-Spanisch-System hochzuladen.
TM-Dateien (TMX
, XLF
, XLIFF
, LCL
, XLSX
) müssen keiner spezifischen Sprachnamenskonvention folgen.