Dela via


Vägledning för Azure AI Custom Translator-format och namngivningskonventioner

Alla filer som används för anpassad översättning måste vara minst fyra tecken långa.

Den här tabellen innehåller alla filformat som stöds och som du kan använda för att skapa översättningssystemet:

Format Tillägg beskrivning
XLIFF .XLF, .XLIFF Ett parallellt dokumentformat, export av översättningsminnessystem. De språk som används definieras i filen.
TMX .TMX Ett parallellt dokumentformat, export av översättningsminnessystem. De språk som används definieras i filen.
ZIP .ZIP Ett arkivfilformat.
Locstudio .LCL Ett Microsoft-format för parallella dokument
Microsoft Word .DOCX Microsoft Word-dokument
Adobe Acrobat .PDF Adobe Acrobat-portabelt dokument
HTML .HTML, .HTM Dokumentet HyperText Markup Language
Textfil .TXT UTF-16- eller UTF-8-kodade textfiler. Filnamnet får inte innehålla japanska tecken.
Justerad textfil .ALIGN Tillägget .ALIGN är ett särskilt tillägg som du kan använda om du vet att meningarna i dokumentparet är perfekt justerade. Om du anger en .ALIGN fil justerar Custom Translator inte meningarna åt dig.
Excel-fil .XLSX Excel-fil (2013 eller senare). Första raden/raden i kalkylbladet ska vara språkkod.

Ordlisteformat

När det gäller ordlistor stöder Custom Translator alla filformat som stöds för träningsuppsättningar. Om du använder en Excel-ordlista bör den första raden i kalkylbladet innehålla språkkoder.

ZIP-filformat

Dokument kan grupperas i en ZIP-fil och laddas upp. Custom Translator stöder zip-filformat (ZIP, GZoch TGZ).

Varje dokument i zip-filen med tillägget TXT, HTML, HTM, PDF, DOCX, ALIGN måste följa den här namngivningskonventionen:

{dokumentnamn}_{språkkod} där {dokumentnamn} är namnet på dokumentet, {language code} är ISO LanguageID (två tecken), vilket anger att dokumentet innehåller meningar på det språket. Det måste finnas ett understreck (_) före språkkoden.

Om du till exempel vill ladda upp två parallella dokument i en zip-fil i ett system från engelska till spanska, ska filerna ha namnen data_en och data_es.

Översättningsminnesfiler (TMX, XLF, XLIFF, LCL, XLSX) krävs inte för att följa den specifika språknamngivningskonventionen.

Nästa steg