Wskazówki dotyczące formatów i konwencji nazewnictwa w usłudze Azure AI Custom Translator
Każdy plik używany do tłumaczenia niestandardowego musi mieć długość co najmniej czterech znaków.
Ta tabela zawiera wszystkie obsługiwane formaty plików, których można użyć do utworzenia systemu tłumaczenia:
Formatuj | Rozszerzenia | opis |
---|---|---|
XLIFF |
.XLF , .XLIFF |
Równoległy format dokumentu, eksport systemów pamięci tłumaczenia. Używane języki są definiowane wewnątrz pliku. |
TMX |
.TMX |
Równoległy format dokumentu, eksport systemów pamięci tłumaczenia. Używane języki są definiowane wewnątrz pliku. |
ZIP |
.ZIP |
Format pliku archiwum. |
Locstudio |
.LCL |
Format firmy Microsoft dla dokumentów równoległych |
Microsoft Word | .DOCX |
Dokument programu Microsoft Word |
Adobe Acrobat | .PDF |
Przenośny dokument Adobe Acrobat |
HTML |
.HTML , .HTM |
Dokument języka znaczników hypertext |
Plik tekstowy | .TXT |
Zakodowane pliki tekstowe UTF-16 lub UTF-8. Nazwa pliku nie może zawierać znaków japońskich. |
Wyrównany plik tekstowy | .ALIGN |
Rozszerzenie .ALIGN to specjalne rozszerzenie, którego można użyć, jeśli wiesz, że zdania w parze dokumentów są idealnie wyrównane. Jeśli podasz .ALIGN plik, usługa Custom Translator nie wyrównuje zdań. |
Plik programu Excel | .XLSX |
Plik programu Excel (2013 lub nowszy). Pierwszy wiersz/wiersz arkusza kalkulacyjnego powinien być kodem języka. |
Formaty słowników
W przypadku słowników funkcja Custom Translator obsługuje wszystkie formaty plików, które są obsługiwane dla zestawów treningowych. Jeśli używasz słownika programu Excel, pierwszy wiersz arkusza kalkulacyjnego powinien zawierać kody języków.
Formaty plików ZIP
Dokumenty można pogrupować w jeden plik zip i przekazać. Usługa Custom Translator obsługuje formaty plików zip (ZIP
, GZ
i TGZ
).
Każdy dokument w pliku zip z rozszerzeniem TXT, HTML, HTM, PDF, DOCX, ALIGN musi przestrzegać następującej konwencji nazewnictwa:
{nazwa dokumentu}_{kod języka}, w którym {nazwa dokumentu} jest nazwą dokumentu, {language code} jest identyfikatorem ISO LanguageID (dwa znaki), wskazującym, że dokument zawiera zdania w tym języku. Przed kodem języka musi istnieć podkreślenie (_).
Aby na przykład przekazać dwa równoległe dokumenty w pliku zip dla systemu tłumaczeń z języka angielskiego na język hiszpański, pliki powinny mieć nazwy data_en
i data_es
.
Pliki pamięci tłumaczenia (TMX
, XLF
, XLIFF
, LCL
, XLSX
) nie są wymagane do przestrzegania określonej konwencji nazewnictwa języków.