Поделиться через


Обучение модели рабочего процесса оркестрации

Обучение — это процесс, в ходе которого модель обучается по вашим речевым фрагментам с метками. Когда обучение завершится, вы сможете просмотреть данные производительности модели.

Чтобы обучить модель, запустите задание обучения. Только успешно завершенные задания создают модель. Срок действия заданий обучения истекает через семь дней. По истечении этого периода вы не сможете получить сведения о задании. Если задание обучения было завершено успешно и создало модель, срок действия этого задания не применяется к созданной модели. Вы можете выполнять только одно задание обучения и не можете запускать одновременно с ним другие задания в том же проекте.

Время обучения может составлять от нескольких секунд при работе с простыми проектами до нескольких часов при достижении максимального количества речевых фрагментов.

Оценка модели автоматически активируется после успешного завершения обучения. Процесс оценки начинается с использования обученной модели для выполнения прогнозов на речевых фрагментах в тестовом наборе и сравнения прогнозируемых результатов с предоставленными метками (что устанавливает базовый уровень истины). Результаты позволяют оценить производительность модели.

Необходимые компоненты

Дополнительные сведения см. в статье о жизненном цикле разработки проекта.

Разделение данных

Перед началом процесса обучения предоставленные в проекте речевые фрагменты с метками делятся на обучающий набор и тестовый набор. Каждый из них выполняет свою роль. Обучающий набор используется при обучении модели, то есть по нему модель изучает речевые фрагменты с метками. Тестовый набор сохраняется в тайне от модели на период обучения, а применяется только во время оценки.

После успешного обучения полученная модель используется для прогнозирования речевых фрагментов в тестовом наборе. Эти прогнозы используются для вычисления метрик оценки.

Важно убедиться, что в обучающем и тестовом наборах хорошо представлены все существующие намерения.

Рабочий процесс оркестрации поддерживает следующие два метода разделения данных.

  • Автоматическое выделение тестового набора из обучающих данных: система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Мы рекомендуем использовать 80 % набора данных для обучения и 20 % для тестирования.

Примечание.

Если вы выберете вариант Автоматическое выделение тестового набора из обучающих данных, выбранные процентные доли будут применяться только для разделения данных в обучающем наборе.

  • Разделение обучающих и тестовых данных вручную: этот метод позволяет самостоятельно определить, какие речевые фрагменты должны принадлежать к какому набору. Этот шаг включается только в том случае, если вы добавили речевые фрагменты в тестовый набор на этапе маркировки.

Примечание.

Вы можете добавлять речевые фрагменты в обучающий набор данных только для неподключенных намерений.

Обучение модели

Запуск задания обучения

Чтобы начать обучение модели в студии службы "Язык", сделайте следующее:

  1. Выберите элемент Задания обучения в меню слева.

  2. В верхнем меню выберите Запустить задание на обучение.

  3. Щелкните Train a new model (Обучить новую модель) и введите имя модели в текстовое поле. Можно также перезаписать существующую модель. Для этого выберите соответствующий параметр и укажите модель, которую требуется перезаписать, в раскрывающемся меню. Перезапись обученной модели необратима, но это не повлияет на развернутые модели до тех пор, пока вы не развернете новую модель.

    Если вы включили проект для ручного разделения данных при разметке речевых фрагментов, то увидите два варианта разделения данных:

    • Автоматическое выделение тестового набора из обучающих данных: речевые фрагменты с метками будут случайным образом разделены между обучающим и тестовым наборами в указанной вами пропорции. Разделение по умолчанию — 80 % для обучения и 20 % для тестирования. Чтобы изменить эти значения, выберите набор, который хотите изменить, и введите новое значение.

    Примечание.

    Если вы выберете вариант Автоматическое выделение тестового набора из обучающих данных, выбранные процентные доли будут применяться только для разделения речевых фрагментов в обучающем наборе.

    • Разделение обучающих и тестовых данных вручную: назначьте каждый речевой фрагмент обучающему или тестовому набору на этапе расстановки тегов проекта.

    Примечание.

    Вариант Разделение обучающих и тестовых данных вручную будет использоваться, только если вы добавите речевые фрагменты в тестовый набор на странице добавления тегов к данным. В противном случае он будет отключен.

    Снимок экрана: страница обучения модели для проектов по распознаванию разговорной речи.

  4. Нажмите кнопку Обучить.

Примечание.

  • Модели будут создаваться только с помощью успешно завершенных заданий обучения.
  • Обучение может занять от нескольких минут до нескольких часов в зависимости от размера данных с тегами.
  • В каждый момент времени может выполняться только одно задание на обучение. Нельзя запустить другое задание обучения в том же проекте до тех пор, пока не будет завершено выполнение задания.

Получение состояния задания обучения

Выберите идентификатор задания обучения из списка, на боковой панели появится область, где можно проверить ход обучения, состояние задания и другие сведения для этого задания.

Отмена задания обучения

Чтобы отменить задание обучения в студии службы "Язык", перейдите на страницу Обучение модели. Выберите задание обучения, которое вы хотите отменить, и выберите "Отмена " в верхнем меню.

Следующие шаги