Udostępnij za pośrednictwem


Wskazówki dotyczące formatów i konwencji nazewnictwa w usłudze Azure AI Custom Translator

Każdy plik używany do tłumaczenia niestandardowego musi mieć długość co najmniej czterech znaków.

Ta tabela zawiera wszystkie obsługiwane formaty plików, których można użyć do utworzenia systemu tłumaczenia:

Formatuj Rozszerzenia opis
XLIFF .XLF, .XLIFF Równoległy format dokumentu, eksport systemów pamięci tłumaczenia. Używane języki są definiowane wewnątrz pliku.
TMX .TMX Równoległy format dokumentu, eksport systemów pamięci tłumaczenia. Używane języki są definiowane wewnątrz pliku.
ZIP .ZIP Format pliku archiwum.
Locstudio .LCL Format firmy Microsoft dla dokumentów równoległych
Microsoft Word .DOCX Dokument programu Microsoft Word
Adobe Acrobat .PDF Przenośny dokument Adobe Acrobat
HTML .HTML, .HTM Dokument języka znaczników hypertext
Plik tekstowy .TXT Zakodowane pliki tekstowe UTF-16 lub UTF-8. Nazwa pliku nie może zawierać znaków japońskich.
Wyrównany plik tekstowy .ALIGN Rozszerzenie .ALIGN to specjalne rozszerzenie, którego można użyć, jeśli wiesz, że zdania w parze dokumentów są idealnie wyrównane. Jeśli podasz .ALIGN plik, usługa Custom Translator nie wyrównuje zdań.
Plik programu Excel .XLSX Plik programu Excel (2013 lub nowszy). Pierwszy wiersz/wiersz arkusza kalkulacyjnego powinien być kodem języka.

Formaty słowników

W przypadku słowników funkcja Custom Translator obsługuje wszystkie formaty plików, które są obsługiwane dla zestawów treningowych. Jeśli używasz słownika programu Excel, pierwszy wiersz arkusza kalkulacyjnego powinien zawierać kody języków.

Formaty plików ZIP

Dokumenty można pogrupować w jeden plik zip i przekazać. Usługa Custom Translator obsługuje formaty plików zip (ZIP, GZi TGZ).

Każdy dokument w pliku zip z rozszerzeniem TXT, HTML, HTM, PDF, DOCX, ALIGN musi przestrzegać następującej konwencji nazewnictwa:

{nazwa dokumentu}_{kod języka}, w którym {nazwa dokumentu} jest nazwą dokumentu, {language code} jest identyfikatorem ISO LanguageID (dwa znaki), wskazującym, że dokument zawiera zdania w tym języku. Przed kodem języka musi istnieć podkreślenie (_).

Aby na przykład przekazać dwa równoległe dokumenty w pliku zip dla systemu tłumaczeń z języka angielskiego na język hiszpański, pliki powinny mieć nazwy data_en i data_es.

Pliki pamięci tłumaczenia (TMX, XLF, XLIFF, LCL, XLSX) nie są wymagane do przestrzegania określonej konwencji nazewnictwa języków.

Następne kroki