Vägledning för Azure AI Custom Translator-format och namngivningskonventioner
Alla filer som används för anpassad översättning måste vara minst fyra tecken långa.
Den här tabellen innehåller alla filformat som stöds och som du kan använda för att skapa översättningssystemet:
Format | Tillägg | beskrivning |
---|---|---|
XLIFF |
.XLF , .XLIFF |
Ett parallellt dokumentformat, export av översättningsminnessystem. De språk som används definieras i filen. |
TMX |
.TMX |
Ett parallellt dokumentformat, export av översättningsminnessystem. De språk som används definieras i filen. |
ZIP |
.ZIP |
Ett arkivfilformat. |
Locstudio |
.LCL |
Ett Microsoft-format för parallella dokument |
Microsoft Word | .DOCX |
Microsoft Word-dokument |
Adobe Acrobat | .PDF |
Adobe Acrobat-portabelt dokument |
HTML |
.HTML , .HTM |
Dokumentet HyperText Markup Language |
Textfil | .TXT |
UTF-16- eller UTF-8-kodade textfiler. Filnamnet får inte innehålla japanska tecken. |
Justerad textfil | .ALIGN |
Tillägget .ALIGN är ett särskilt tillägg som du kan använda om du vet att meningarna i dokumentparet är perfekt justerade. Om du anger en .ALIGN fil justerar Custom Translator inte meningarna åt dig. |
Excel-fil | .XLSX |
Excel-fil (2013 eller senare). Första raden/raden i kalkylbladet ska vara språkkod. |
Ordlisteformat
När det gäller ordlistor stöder Custom Translator alla filformat som stöds för träningsuppsättningar. Om du använder en Excel-ordlista bör den första raden i kalkylbladet innehålla språkkoder.
ZIP-filformat
Dokument kan grupperas i en ZIP-fil och laddas upp. Custom Translator stöder zip-filformat (ZIP
, GZ
och TGZ
).
Varje dokument i zip-filen med tillägget TXT, HTML, HTM, PDF, DOCX, ALIGN måste följa den här namngivningskonventionen:
{dokumentnamn}_{språkkod} där {dokumentnamn} är namnet på dokumentet, {language code} är ISO LanguageID (två tecken), vilket anger att dokumentet innehåller meningar på det språket. Det måste finnas ett understreck (_) före språkkoden.
Om du till exempel vill ladda upp två parallella dokument i en zip-fil i ett system från engelska till spanska, ska filerna ha namnen data_en
och data_es
.
Översättningsminnesfiler (TMX
, XLF
, XLIFF
, LCL
, XLSX
) krävs inte för att följa den specifika språknamngivningskonventionen.