Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Завершив маркировку речевых фрагментов, можно приступить к обучению модели. Обучение — это процесс, в ходе которого модель обучается по вашим помеченным высказываниям.
Чтобы обучить модель, запустите задание обучения. Только успешно завершенные задания создают модель. Срок действия заданий обучения истекает через семь дней. По истечении этого периода вы не сможете получить сведения о задании. Если задание обучения было завершено успешно и модель была создана, время действия этого задания не повлияет на созданную модель. Вы можете выполнять только одно задание обучения и не можете запускать одновременно с ним другие задания в том же проекте.
Время обучения может составлять от нескольких секунд при работе с простыми проектами до нескольких часов при достижении максимального количества речевых фрагментов.
Оценка модели автоматически активируется после успешного завершения обучения. Процесс оценки начинается с использования обученной модели для выполнения прогнозов на речевых фрагментах в тестовом наборе и сравнения прогнозируемых результатов с предоставленными метками (что устанавливает базовый уровень истины).
Предварительные требования
- Успешно созданный проект с настроенной учетной записью Azure для хранилища BLOB-объектов
- Помеченные речевые фрагменты
Балансировка данных обучения
Когда дело доходит до данных для обучения, старайтесь, чтобы схема была хорошо сбалансированной. Включение больших объёмов одного намерения и очень малого количества другого приводит к созданию модели, склонной к определённым намерениям.
Чтобы устранить этот сценарий, может потребоваться сократить набор обучения. Или вам может потребоваться добавить что-то к нему. Для понижения разрешения вы можете:
- Удалить случайно определенный процент обучающих данных.
- Анализ набора данных и удаление избыточных повторяющихся записей, что является более систематическим способом.
Чтобы добавить в набор данных для обучения, на вкладке Маркировка данных выберите Предложить варианты фраз. Система понимания разговорной речи отправляет вызов в Azure OpenAI для создания аналогичных высказываний.
Вы также должны искать непреднамеренные "шаблоны" в тренировочном наборе. Посмотрите, например, является ли обучающий набор данных для определенного намерения все в нижнем регистре или начинается с конкретной фразы. В таких случаях обучаемая модель может унаследовать эти непреднамеренные смещения в обучающем наборе данных вместо того, чтобы обобщать.
Рекомендуется использовать разнообразие написания и пунктуации в наборе обучения. Если ваша модель, как ожидается, будет обрабатывать варианты, обязательно укажите набор обучения, который также отражает это разнообразие. Например, включите некоторые речевые фрагменты в правильном регистре и некоторые из них во всех строчных регистрах.
Разделение данных
Перед началом обучения размеченные высказывания в вашем проекте делятся на обучающий набор и тестовый набор. Каждый из них выполняет свою роль. Обучающий набор используется при обучении модели, то есть по нему модель изучает речевые фрагменты с метками. Тестовый набор — это слепой набор, который не представляется модели во время обучения, а используется только во время оценки.
После успешного обучения полученная модель используется для прогнозирования речевых фрагментов в тестовом наборе. Эти прогнозы используются для вычисления метрик оценки. Важно убедиться, что в ваших обучающем и тестовом наборах достаточно представлены все намерения и сущности.
Распознавание речи общения поддерживает два метода разделения данных:
- Автоматическое выделение тестового набора из обучающих данных: система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Рекомендуемое процентное разделение — 80 % для обучения и 20 % для тестирования.
Примечание.
Если вы выберете вариант Автоматическое выделение тестового набора из обучающих данных, выбранные процентные доли будут применяться только для разделения данных в обучающем наборе.
- Разделение обучающих и тестовых данных вручную: этот метод позволяет самостоятельно определить, какие речевые фрагменты должны принадлежать к какому набору. Этот шаг включается только в том случае, если вы добавили речевые фрагменты в тестовый набор на этапе маркировки.
Режимы обучения
CLU поддерживает два режима для обучения моделей
Стандартное обучение использует быстрые алгоритмы машинного обучения для относительно быстрого обучения моделей. В настоящее время он доступен только для английского языка и отключен для любого проекта, который не использует английский (США) или английский (Великобритания) в качестве основного языка. Этот вариант обучения предоставляется бесплатно. Стандартное обучение позволяет добавлять речевые фрагменты и тестировать их быстро без затрат. Показанные результаты оценки должны помочь вам в том, где внести изменения в проект и добавить дополнительные высказывания. После нескольких итераций и добавочных улучшений можно использовать расширенное обучение для обучения другой версии модели.
Расширенное обучение использует новейшие технологии машинного обучения для настройки моделей с помощью ваших данных. Ожидается, что это позволит получить более высокие оценки производительности моделей, а также использовать многоязычные возможности CLU. Продвинутое обучение имеет различную стоимость. Дополнительную информацию см. в сведениях о ценах.
Используйте результаты оценки для принятия решений. В некоторых случаях конкретный пример может быть спрогнозирован неправильно в расширенном обучении, в отличие от стандартного режима. Тем не менее, если общие результаты оценки лучше при расширенных настройках, рекомендуется использовать вашу окончательную модель. Если это не так, и вы не хотите использовать какие-либо многоязычные возможности, вы можете продолжать использовать модель, обученную с помощью стандартного режима.
Примечание.
Вы должны ожидать разницу в поведении в оценках достоверности намерений между режимами обучения, так как каждый алгоритм калибрует свои оценки по-разному.
Обучение модели
Чтобы начать обучение модели в Language Studio, сделайте следующее:
Выберите Train model (Обучение модели) в меню слева.
В верхнем меню выберите Запустить задание на обучение.
Выберите "Обучение новой модели" и введите новое имя модели в текстовом поле. В противном случае для замены существующей модели моделью, обученной на новых данных, выберите "Перезаписать существующую модель " и выберите существующую модель. Перезапись обученной модели необратима, но это не повлияет на развернутые модели до тех пор, пока вы не развернете новую модель.
Выберите режим обучения. Вы можете выбрать Стандартное обучение для более быстрого обучения, но оно доступно только на английском языке. Кроме того, можно выбрать Расширенное обучение, которое поддерживается для других языков и многоязычных проектов, но оно предусматривает более длительное время обучения. Узнайте больше о режимах обучения.
Выберите метод разделения данных. Вы можете выбрать Автоматическое разделение тестового набора из обучающих данных, при котором система распределит ваши высказывания между обучающим и тестовым наборами согласно указанным процентам. Кроме того, можно использовать разделение данных обучения и тестирования вручную. Этот вариант доступен только в том случае, если вы добавили речевые фрагменты в набор тестирования во время маркировки речевых фрагментов.
Нажмите кнопку Обучить.
Выберите идентификатор задания обучения в списке. Откроется панель, где можно проверить ход обучения, состояние задания и другие сведения для этого задания.
Примечание.
- Модели будут создаваться только с помощью успешно завершенных заданий обучения.
- Обучение может занять от нескольких минут до нескольких часов в зависимости от количества речевых фрагментов.
- В каждый момент времени может выполняться только одно задание на обучение. Вы не сможете запустить другие задания обучения в том же проекте, пока не завершится выполнение задания.
- Машинное обучение, используемое для обучения моделей, регулярно обновляется. Чтобы обучить на предыдущей версии конфигурации, выберите Здесь, чтобы изменить на странице Начало задания обучения и выберите предыдущую версию.
Отмена задания обучения
Отмена задания обучения в Language Studio
- На странице "Обучение модели" выберите задание обучения, которое вы хотите отменить, и выберите "Отмена" в верхнем меню.