Поделиться через


Создание учебных документов и управление ими

Пользовательский переводчик позволяет создавать модели перевода, отражающие терминологию и стиль, характерные для бизнеса, отрасли и предметной области. Обучение и развертывание пользовательской модели легко и не требует навыков программирования. Пользовательский переводчик позволяет отправлять параллельные файлы, файлы памяти перевода или ZIP-файлы.

Параллельные документы — это пары документов, в которых один (целевой документ) является переводом другого (исходного документа). Один документ в паре содержит предложения на исходном языке, а другой — эти же предложения, переведенные на целевой язык.

Перед отправкой документов ознакомьтесь с рекомендациями по формату документов и соглашению об именовании, чтобы убедиться, что Настраиваемый переводчик поддерживает формат файла.

Создание наборов документов

Поиск качественных данных в домене часто сопряжен с трудностями, которые зависят от классификации пользователей. Ниже приведены некоторые вопросы, которые можно задать себе при оценке доступных для вас данных.

  • Имеются ли у вашей компании предыдущие данные перевода, которые можно использовать? Предприятия часто обладают большим объемом данных перевода, накопленных на протяжении многих лет при использовании человеческого перевода.

  • Есть ли у вас огромное количество одноязычных данных? Одноязычные данные — это данные только на одном языке. Если да, можно ли получить переводы для этих данных?

  • Можно ли просканировать веб-порталы, чтобы собрать исходные предложения и синтезировать их перевод на целевой язык?

Обучающие материалы для каждого типа документов

Исходный код Что он делает Правила для выполнения
Двуязычные учебные документы Обучает систему применять вашу терминологию и стиль. Будьте снисходительны. Любой предметный перевод, выполненный человеком, будет лучше машинного. Добавление и удаление документов по мере использования и попытка улучшить BLEU оценку.
Настройка документов Помогает научиться применять параметры нейронного машинного перевода. Будьте строги. Составляйте параметры так, чтобы они оптимально соответствовали тому, что вы собираетесь переводить в будущем.
Проверка документов Вычислите BLEU оценку. Будьте строги. Составляйте тестовые документы так, чтобы они были оптимально соответствовали тому, что вы собираетесь переводить в будущем.
Словарь фраз Принудительно выдает заданный перевод в течение всего времени. Ставьте ограничения. Словарь фраз учитывает регистр, а все слова и фразы, занесенные в список, переводятся указанным способом. Во многих случаях лучше не использовать словарь фраз и дать системе возможность обучиться.
Словарь предложений Принудительно выдает заданный перевод в течение всего времени. Будьте строги. В словаре предложений не учитывается регистр, и он хорошо подходит для коротких предложений, которые нередко встречаются в предметной области. Чтобы засчитывалось совпадение со словарем предложений, запись в словаре должна полностью и точно совпадать с полученным предложением. Если совпадает только часть предложения, запись не соответствует.

Отправка документов

Типы документов связаны с парой языков, выбранной при создании проекта.

  1. Войдите на портал Пользовательский переводчик. На экране появится рабочая область по умолчанию и список ранее созданных проектов.

  2. Выберите имя нужного проекта. По умолчанию выбрана колонка Управление документами и отображается список ранее отправленных документов.

  3. Щелкните Добавить набор документов и выберите тип документа:

    • Обучающий набор
    • Проверочный набор
    • Набор для настройки
    • Набор словарей:
      • Словарь фраз
      • Словарь предложений
  4. Выберите Далее.

    Снимок экрана: ссылка на отправку документа.

    Примечание.

    При выборе Набора словарей открывается диалоговое окно Выберите тип словаря. Выберите один элемент и нажмите кнопку Далее.

  5. Выберите формат документов в разделе с переключателями.

    Снимок экрана: страница отправки документа.

    • Для Параллельных документов заполните поле Document set name и щелкните Обзор файлов, чтобы выбрать исходный и целевой документы.
    • Для файла Память перевода (TM) или Отправить несколько наборов в виде ZIP-файла щелкните Обзор файлов, чтобы выбрать файл.
  6. Выберите Отправить.

На этом этапе Пользовательский переводчик обрабатывает документы и пытается извлечь предложения, как указано в уведомлении об отправке. После завершения обработки вы увидите уведомление об успешной отправке.

Снимок экрана: диалоговое окно отправки документов.

Просмотр истории отправок

На странице рабочей области можно просмотреть журнал всех отправленных документов, таких как тип документа, языковая пара, состояние отправки и т. д.

  1. На вкладке "Журнал отправки" отображается журнал на странице рабочей области пользовательского портала Переводчика .

    Снимок экрана: вкладка журнала отправки.

  2. На этой странице отображается состояние всех ваших предыдущих отправок: от недавних до самых последних. Состояние отправки отображает имя документа, созданное с помощью, состояние отправки, дату отправки, количество отправленных файлов, тип отправленных файлов и языковые пары. Фильтр можно использовать для быстрого поиска документов по имени, состоянию, языку и диапазону дат.

    Снимок экрана: страница журнала отправки.

  3. На странице сведений журнала отправки отображаются файлы, отправленные как часть отправленного состояния файла, языка файла и сообщения об ошибке (при возникновении ошибки при отправке).

Следующие шаги