Создание учебных документов и управление ими
Пользовательский переводчик позволяет создавать модели перевода, отражающие терминологию и стиль, характерные для бизнеса, отрасли и предметной области. Обучение и развертывание пользовательской модели легко и не требует навыков программирования. Пользовательский переводчик позволяет отправлять параллельные файлы, файлы памяти перевода или ZIP-файлы.
Параллельные документы — это пары документов, в которых один (целевой документ) является переводом другого (исходного документа). Один документ в паре содержит предложения на исходном языке, а другой — эти же предложения, переведенные на целевой язык.
Перед отправкой документов ознакомьтесь с рекомендациями по формату документов и соглашению об именовании, чтобы убедиться, что Настраиваемый переводчик поддерживает формат файла.
Создание наборов документов
Поиск качественных данных в домене часто сопряжен с трудностями, которые зависят от классификации пользователей. Ниже приведены некоторые вопросы, которые можно задать себе при оценке доступных для вас данных.
Имеются ли у вашей компании предыдущие данные перевода, которые можно использовать? Предприятия часто обладают большим объемом данных перевода, накопленных на протяжении многих лет при использовании человеческого перевода.
Есть ли у вас огромное количество одноязычных данных? Одноязычные данные — это данные только на одном языке. Если да, можно ли получить переводы для этих данных?
Можно ли просканировать веб-порталы, чтобы собрать исходные предложения и синтезировать их перевод на целевой язык?
Обучающие материалы для каждого типа документов
Исходный код | Что он делает | Правила для выполнения |
---|---|---|
Двуязычные учебные документы | Обучает систему применять вашу терминологию и стиль. | Будьте снисходительны. Любой предметный перевод, выполненный человеком, будет лучше машинного. Добавление и удаление документов по мере использования и попытка улучшить BLEU оценку. |
Настройка документов | Помогает научиться применять параметры нейронного машинного перевода. | Будьте строги. Составляйте параметры так, чтобы они оптимально соответствовали тому, что вы собираетесь переводить в будущем. |
Проверка документов | Вычислите BLEU оценку. |
Будьте строги. Составляйте тестовые документы так, чтобы они были оптимально соответствовали тому, что вы собираетесь переводить в будущем. |
Словарь фраз | Принудительно выдает заданный перевод в течение всего времени. | Ставьте ограничения. Словарь фраз учитывает регистр, а все слова и фразы, занесенные в список, переводятся указанным способом. Во многих случаях лучше не использовать словарь фраз и дать системе возможность обучиться. |
Словарь предложений | Принудительно выдает заданный перевод в течение всего времени. | Будьте строги. В словаре предложений не учитывается регистр, и он хорошо подходит для коротких предложений, которые нередко встречаются в предметной области. Чтобы засчитывалось совпадение со словарем предложений, запись в словаре должна полностью и точно совпадать с полученным предложением. Если совпадает только часть предложения, запись не соответствует. |
Отправка документов
Типы документов связаны с парой языков, выбранной при создании проекта.
Войдите на портал Пользовательский переводчик. На экране появится рабочая область по умолчанию и список ранее созданных проектов.
Выберите имя нужного проекта. По умолчанию выбрана колонка Управление документами и отображается список ранее отправленных документов.
Щелкните Добавить набор документов и выберите тип документа:
- Обучающий набор
- Проверочный набор
- Набор для настройки
- Набор словарей:
- Словарь фраз
- Словарь предложений
Выберите Далее.
Примечание.
При выборе Набора словарей открывается диалоговое окно Выберите тип словаря. Выберите один элемент и нажмите кнопку Далее.
Выберите формат документов в разделе с переключателями.
- Для Параллельных документов заполните поле
Document set name
и щелкните Обзор файлов, чтобы выбрать исходный и целевой документы. - Для файла Память перевода (TM) или Отправить несколько наборов в виде ZIP-файла щелкните Обзор файлов, чтобы выбрать файл.
- Для Параллельных документов заполните поле
Выберите Отправить.
На этом этапе Пользовательский переводчик обрабатывает документы и пытается извлечь предложения, как указано в уведомлении об отправке. После завершения обработки вы увидите уведомление об успешной отправке.
Просмотр истории отправок
На странице рабочей области можно просмотреть журнал всех отправленных документов, таких как тип документа, языковая пара, состояние отправки и т. д.
На вкладке "Журнал отправки" отображается журнал на странице рабочей области пользовательского портала Переводчика .
На этой странице отображается состояние всех ваших предыдущих отправок: от недавних до самых последних. Состояние отправки отображает имя документа, созданное с помощью, состояние отправки, дату отправки, количество отправленных файлов, тип отправленных файлов и языковые пары. Фильтр можно использовать для быстрого поиска документов по имени, состоянию, языку и диапазону дат.
На странице сведений журнала отправки отображаются файлы, отправленные как часть отправленного состояния файла, языка файла и сообщения об ошибке (при возникновении ошибки при отправке).
Следующие шаги
- Сведения об обучении модели см. в этой статье.
- Узнайте, как тестировать и оценивать качество модели.
- Узнайте, как опубликовать модель.
- Узнайте, как выполнять перевод с помощью пользовательских моделей.