Что такое параллельные документы
Параллельные документы — это пары документов, среди которых один является переводом другого. Один документ в паре содержит предложения на исходном языке, а другой — эти же предложения, переведенные на целевой язык. Не имеет значения, какой язык помечен как исходный, а какой как целевой. Параллельный документ может использоваться для обучения системы перевода в любом направлении.
Требования
Для обучения системы требуется не менее 10 000 уникальных параллельных предложений. Это ограничение представляет собой подстраховку, гарантирующую, что ваши параллельные предложения содержат достаточно уникального словаря для успешного обучения модели перевода. Рекомендуется постоянно добавлять параллельное содержимое и переобучать систему перевода, чтобы улучшить ее качество. Дополнительные сведения см. в разделе "Выравнивание предложений".
Корпорация Майкрософт требует, чтобы документы, отправленные в Пользовательский переводчик, не нарушали сторонние авторские права или интеллектуальные свойства. Дополнительные сведения см. в статье об условиях использования. Передача документа с помощью портала не изменяет права на интеллектуальную собственность в самом документе.
Использование параллельных документов
В системе параллельные документы используются:
Чтобы узнать, как слова, фразы и предложения обычно сопоставляются между двумя языками.
Чтобы узнать, как обрабатывать соответствующий контекст в зависимости от расположенных рядом фраз. Слово может не всегда переводиться словом с аналогичным значением на другом языке.
Рекомендуется убедиться, что между версиями документов исходного и целевого языка есть однозначное соответствие.
Если ваш проект относится к определенной предметной области (категории), ваши документы должны соответствовать терминологии этой категории. Качество полученной системы перевода зависит от количества предложений в вашем наборе документов и качества предложений. Чем больше примеров с различными вариантами использования слов, специфичными для вашей категории, содержится в документах, тем лучше будет перевод.
Переданные документы являются закрытыми для каждой рабочей области и могут использоваться в любом количестве проектов или обучений. Предложения, извлеченные из ваших документов, хранятся отдельно в вашем репозитории в виде простых текстовых файлов в кодировке Юникод, и вы можете удалить их. Не используйте пользовательский переводчик в качестве репозитория документов, вы не можете скачать документы в том же формате, который был отправлен.