Richtlijnen voor Azure AI Custom Translator-indelingen en naamconventie
Elk bestand dat wordt gebruikt voor aangepaste vertaling, moet minimaal vier tekens lang zijn.
Deze tabel bevat alle ondersteunde bestandsindelingen die u kunt gebruiken om uw vertaalsysteem te bouwen:
Notatie | Uitbreidingen | Beschrijving |
---|---|---|
XLIFF |
.XLF , .XLIFF |
Een parallelle documentindeling, export van Vertaalgeheugensystemen. De gebruikte talen worden gedefinieerd in het bestand. |
TMX |
.TMX |
Een parallelle documentindeling, export van Vertaalgeheugensystemen. De gebruikte talen worden gedefinieerd in het bestand. |
ZIP |
.ZIP |
Een archiefbestandsindeling. |
Locstudio |
.LCL |
Een Microsoft-indeling voor parallelle documenten |
Microsoft Word | .DOCX |
Microsoft Word-document |
Adobe Acrobat | .PDF |
Adobe Acrobat portable document |
HTML |
.HTML , .HTM |
HyperText Markup Language-document |
Tekstbestand | .TXT |
Met UTF-16 of UTF-8 gecodeerde tekstbestanden. De bestandsnaam mag geen Japanse tekens bevatten. |
Uitgelijnd tekstbestand | .ALIGN |
De extensie is een speciale extensie .ALIGN die u kunt gebruiken als u weet dat de zinnen in het documentpaar perfect zijn uitgelijnd. Als u een .ALIGN bestand opgeeft, worden de zinnen niet voor u uitgelijnd door Custom Translator. |
Excel-bestand | .XLSX |
Excel-bestand (2013 of hoger). De eerste regel/rij van het werkblad moet taalcode zijn. |
De woordenlijstindelingen
Voor de woordenlijsten ondersteunt Custom Translator alle bestandsindelingen die worden ondersteund voor trainingssets. Als u een Excel-woordenlijst gebruikt, dan moet de eerste regel/rij van het werkblad taalcodes zijn.
ZIP-bestandsindelingen
Documenten kunnen worden gegroepeerd in één zip-bestand en dan worden geüpload. Custom Translator ondersteunt zip-bestandsindelingen (ZIP
, GZ
en TGZ
).
Elk document in het zip-bestand met de extensie TXT, HTML, HTM, PDF, DOCX, ALIGN moet deze naamconventie volgen:
{documentnaam}_{language code} waarbij {document name} de naam van uw document is, {language code} is de ISO LanguageID (twee tekens), waarmee wordt aangegeven dat het document zinnen in die taal bevat. Er moet een onderstrepingsteken (_) zijn vóór de taalcode.
Als u bijvoorbeeld twee parallelle documenten in een zip wilt uploaden voor een systeem met Engels naar Spaans, moeten de bestanden de naam data_en
en data_es
hebben.
Vertaalgeheugenbestanden (TMX
, XLF
, XLIFF
, LCL
) XLSX
zijn niet vereist om de specifieke taalnaamconventie te volgen.