Поделиться через


Руководство по форматам документов и соглашениям об именовании

Имя любого файла, используемого для пользовательского перевода, должно содержать по крайней мере четыре символа.

Эта таблица содержит все поддерживаемые форматы файлов, которые можно использовать для построения системы перевода:

Формат Расширения Description
XLIFF .XLF, .XLIFF Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле.
TMX .TMX Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле.
ZIP .ZIP Формат архивного файла.
Locstudio .LCL Формат параллельных документов Майкрософт
Microsoft Word .DOCX Документ Microsoft Word
Adobe Acrobat .PDF Переносимый документ Adobe Acrobat
HTML .HTML, .HTM Документ языка разметки HyperText
Текстовый файл .TXT Текстовые файлы в кодировке UTF-16 или UTF-8. Имя файла не должно содержать японских символов.
Файл с сопоставленным текстом .ALIGN .ALIGN — это специальное расширение, которое можно использовать, если известно, что предложения в паре документов идеально сопоставлены. Если вы предоставляете .ALIGN файл, Пользовательский переводчик не выравнивает предложения для вас.
Файл Excel .XLSX Файл Excel (2013 или более поздней версии). Первая строка таблицы должна быть кодом языка.

Форматы словарей

Для словарей Пользовательский переводчик поддерживает все форматы файлов, поддерживаемые для обучающих наборов. Если вы используете словарь в формате Excel, первая строка таблицы должна содержать коды языков.

Форматы ZIP-файлов

Документы могут быть сгруппированы в один ZIP-файл и отправлены в таком виде. Настраиваемый переводчик поддерживает форматы ZIP-файлов (ZIP, GZи TGZ).

Каждый документ в ZIP-файле с расширением .txt, .html, .htm, .pdf, .docx, .align должен соответствовать этому соглашению об именовании:

{имя документа}_{код языка}, где {имя документа} — имя документа, {код языка} — идентификатор LanguageID ISO (два символа), указывающий, что документ содержит предложения на этом языке. Перед кодом языка должен присутствовать символ подчеркивания (_).

Например, чтобы отправить два параллельных документа в ZIP-файле для системы перевода с английского на испанский, они должны называться data_en и data_es соответственно.

Файлы памяти перевода (TMX, XLF, XLIFF, LCL, XLSX) не требуются для выполнения конкретного соглашения об именовании языка.

Следующие шаги