Руководство по форматам документов и соглашениям об именовании
Имя любого файла, используемого для пользовательского перевода, должно содержать по крайней мере четыре символа.
Эта таблица содержит все поддерживаемые форматы файлов, которые можно использовать для построения системы перевода:
Формат | Расширения | Description |
---|---|---|
XLIFF |
.XLF , .XLIFF |
Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле. |
TMX |
.TMX |
Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле. |
ZIP |
.ZIP |
Формат архивного файла. |
Locstudio |
.LCL |
Формат параллельных документов Майкрософт |
Microsoft Word | .DOCX |
Документ Microsoft Word |
Adobe Acrobat | .PDF |
Переносимый документ Adobe Acrobat |
HTML |
.HTML , .HTM |
Документ языка разметки HyperText |
Текстовый файл | .TXT |
Текстовые файлы в кодировке UTF-16 или UTF-8. Имя файла не должно содержать японских символов. |
Файл с сопоставленным текстом | .ALIGN |
.ALIGN — это специальное расширение, которое можно использовать, если известно, что предложения в паре документов идеально сопоставлены. Если вы предоставляете .ALIGN файл, Пользовательский переводчик не выравнивает предложения для вас. |
Файл Excel | .XLSX |
Файл Excel (2013 или более поздней версии). Первая строка таблицы должна быть кодом языка. |
Форматы словарей
Для словарей Пользовательский переводчик поддерживает все форматы файлов, поддерживаемые для обучающих наборов. Если вы используете словарь в формате Excel, первая строка таблицы должна содержать коды языков.
Форматы ZIP-файлов
Документы могут быть сгруппированы в один ZIP-файл и отправлены в таком виде. Настраиваемый переводчик поддерживает форматы ZIP-файлов (ZIP
, GZ
и TGZ
).
Каждый документ в ZIP-файле с расширением .txt, .html, .htm, .pdf, .docx, .align должен соответствовать этому соглашению об именовании:
{имя документа}_{код языка}, где {имя документа} — имя документа, {код языка} — идентификатор LanguageID ISO (два символа), указывающий, что документ содержит предложения на этом языке. Перед кодом языка должен присутствовать символ подчеркивания (_).
Например, чтобы отправить два параллельных документа в ZIP-файле для системы перевода с английского на испанский, они должны называться data_en
и data_es
соответственно.
Файлы памяти перевода (TMX
, XLF
, XLIFF
, LCL
, XLSX
) не требуются для выполнения конкретного соглашения об именовании языка.