Поделиться через


Связывание и сопоставление предложений в параллельных документах

После загрузки документов предложения, представленные в параллельных документах, объединяются в пары или выравниваются. Custom Translator сообщает о количестве предложений, которые удалось связать в каждом из наборов данных как сопоставленные предложения.

Процесс связывания и сопоставления

Custom Translator анализирует перевод по одному предложению за раз. Функция читает предложение из исходного текста, а затем перевод этого предложения из целевого текста. Затем он сопоставляет слова и фразы в этих двух предложениях друг с другом. С помощью этого процесса можно создать карту слов и фраз в одном предложении с эквивалентными словами и фразами в переводе предложения. Сопоставление должно гарантировать, что система обучается по предложениям, которые являются переводами друг друга.

Предварительно подготовленные документы

Если у вас есть параллельные документы, можно переопределить выравнивание предложений, предоставив предварительно подготовленные текстовые файлы. Можно извлечь все предложения из обоих документов в текстовый файл, разместить текст в них по одному предложению на строку и передать с расширением .align. Расширение .align указывает, что Custom Translator должен пропустить сопоставление предложений.

Для достижения наилучших результатов убедитесь, что в файлах размещено по одному предложению на строку. Не имеют новых символов в предложении— это приводит к плохому выравниванию.

Предлагаемое минимальное количество предложений

Для успешного обучения в следующей таблице показано минимальное количество предложений, необходимых для каждого типа документа. Это ограничение представляет собой подстраховку, гарантирующую, что ваши параллельные предложения содержат достаточно уникального словаря для успешного обучения модели перевода. Общий принцип заключается в том, что наличие большего количества параллельных предложений в предметной области с качеством человеческого перевода должно приводить к созданию моделей более высокого качества.

Document type Предлагаемое минимальное количество предложений Максимальное количество предложений
Обучение 10,000 Верхнее ограничение отсутствует
Настройка 500 2500
Тестирование 500 2500
Dictionary 0 250 000

Примечание.

  • Обучение не запускается и завершается ошибкой, если не соответствует минимальному количеству предложений 10 000 для обучения.
  • Настройка и тестирование являются необязательными. Если вы не предоставляете их, система удаляет соответствующий процент от обучения для использования для проверки и тестирования.
  • Модель можно обучить только с помощью данных словаря. Дополнительные сведения см. в статье"Что такое словарь".
  • Функция перевода документов рекомендуется для обучения с словарями, содержащими более 250 000 предложений. Дополнительные сведения см. в разделе"Перевод документов".
  • Бесплатная (F0) подписка на обучение имеет максимальный лимит в 2 000 000 символов.

Следующие шаги