Обучение модели распознавания устной речи
Завершив маркировку речевых фрагментов, можно приступить к обучению модели. Обучение — это процесс, в ходе которого модель обучается по вашим речевым фрагментам с метками.
Чтобы обучить модель, запустите задание обучения. Только успешно завершенные задания создают модель. Срок действия заданий обучения истекает через семь дней. По истечении этого периода вы не сможете получить сведения о задании. Если задание обучения было завершено успешно и создало модель, срок действия этого задания не применяется к созданной модели. Вы можете выполнять только одно задание обучения и не можете запускать одновременно с ним другие задания в том же проекте.
Время обучения может составлять от нескольких секунд при работе с простыми проектами до нескольких часов при достижении максимального количества речевых фрагментов.
Оценка модели автоматически активируется после успешного завершения обучения. Процесс оценки начинается с использования обученной модели для выполнения прогнозов на речевых фрагментах в тестовом наборе и сравнения прогнозируемых результатов с предоставленными метками (что устанавливает базовый уровень истины).
Необходимые компоненты
- Успешно созданный проект с настроенной учетной записью хранилища BLOB-объектов Azure
- Помеченные речевые фрагменты
Баланс данных обучения
Когда дело доходит до обучающих данных, старайтесь хорошо балансировать схему. В том числе большое количество одного намерения и очень мало другого приводит к модели, которая предвзята к конкретным намерениям.
Чтобы устранить этот сценарий, может потребоваться сократить набор обучения. Или вам может потребоваться добавить его. Чтобы вниз, можно:
- Избавиться от определенного процента обучающих данных случайным образом.
- Анализ набора данных и удаление избыточных повторяющихся записей, что является более систематическим способом.
Чтобы добавить в набор обучения, на вкладке "Метка данных" на вкладке " Маркировка данных" выберите "Предложить речевые фрагменты". Беседа Распознавание речи отправляет вызов в Azure OpenAI для создания аналогичных речевых фрагментов.
Вы также должны искать непреднамеренные "шаблоны" в наборе обучения. Например, посмотрите, является ли набор обучения для определенного намерения нижним регистром или начинается с конкретной фразы. В таких случаях обучаемая модель может узнать эти непреднамеренные смещения в наборе обучения вместо того, чтобы обобщать.
Рекомендуется ввести многообразие регистра и препинания в наборе обучения. Если ваша модель, как ожидается, будет обрабатывать варианты, обязательно укажите набор обучения, который также отражает это разнообразие. Например, включите некоторые речевые фрагменты в правильном регистре и некоторые из них во всех строчных регистрах.
Разделение данных
Перед началом процесса обучения предоставленные в проекте речевые фрагменты с метками делятся на обучающий набор и тестовый набор. Каждый из них выполняет свою роль. Обучающий набор используется при обучении модели, то есть по нему модель изучает речевые фрагменты с метками. Тестовый набор сохраняется в тайне от модели на период обучения, а применяется только во время оценки.
После успешного обучения полученная модель используется для прогнозирования речевых фрагментов в тестовом наборе. Эти прогнозы используются для вычисления метрик оценки. Важно убедиться, что в обучающем и тестовом наборах хорошо представлены все существующие намерения и сущности.
Распознавание речи общения поддерживает два метода разделения данных:
- Автоматическое выделение тестового набора из обучающих данных: система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Мы рекомендуем использовать 80 % набора данных для обучения и 20 % для тестирования.
Примечание.
Если вы выберете вариант Автоматическое выделение тестового набора из обучающих данных, выбранные процентные доли будут применяться только для разделения данных в обучающем наборе.
- Разделение обучающих и тестовых данных вручную: этот метод позволяет самостоятельно определить, какие речевые фрагменты должны принадлежать к какому набору. Этот шаг включается только в том случае, если вы добавили речевые фрагменты в тестовый набор на этапе маркировки.
Режимы обучения
CLU поддерживает два режима для обучения моделей
Стандартное обучение использует быстрые алгоритмы машинного обучения для относительно быстрого обучения моделей. В настоящее время он доступен только для английского языка и отключен для любого проекта, который не использует английский (США) или английский (Великобритания) в качестве основного языка. Этот вариант обучения предоставляется бесплатно. Стандартное обучение позволяет добавлять речевые фрагменты и тестировать их быстро без затрат. Показанные результаты оценки должны помочь вам в том, где внести изменения в проект и добавить дополнительные высказывания. После нескольких итераций и добавочных улучшений можно использовать расширенное обучение для обучения другой версии модели.
Расширенное обучение использует новейшие технологии машинного обучения для настройки моделей с помощью ваших данных. Ожидается, что это позволит получить более высокие оценки производительности моделей, а также использовать многоязычные возможности CLU. Дополнительное обучение по-разному оцениваются. Дополнительную информацию см. в сведениях о ценах.
Используйте результаты оценки для принятия решений. В некоторых случаях, когда конкретный пример прогнозируется неправильно в расширенном обучении, а не при использовании стандартного режима обучения. Тем не менее, если общие результаты оценки лучше при расширенном обучении, рекомендуется использовать окончательную модель. Если это не так, и вы не хотите использовать какие-либо многоязычные возможности, вы можете продолжать использовать модель, обученную с помощью стандартного режима.
Примечание.
Вы должны ожидать разницу в поведении в оценках достоверности намерений между режимами обучения, так как каждый алгоритм калибрует свои оценки по-разному.
Обучение модели
Чтобы начать обучение модели в студии службы "Язык", сделайте следующее:
Выберите Train model (Обучение модели) в меню слева.
В верхнем меню выберите Запустить задание на обучение.
Выберите "Обучение новой модели" и введите новое имя модели в текстовом поле. В противном случае для замены существующей модели моделью, обученной на новых данных, выберите "Перезаписать существующую модель " и выберите существующую модель. Перезапись обученной модели необратима, но это не повлияет на развернутые модели до тех пор, пока вы не развернете новую модель.
Выберите режим обучения. Вы можете выбрать Стандартное обучение для более быстрого обучения, но оно доступно только на английском языке. Кроме того, можно выбрать Расширенное обучение, которое поддерживается для других языков и многоязычных проектов, но оно предусматривает более длительное время обучения. Узнайте больше о режимах обучения.
Выберите метод разделения данных. Вы можете выбрать вариант Автоматическое выделение тестового набора из обучающих данных, при котором система разделит данные с метками на обучающий и тестовый наборы в указанной вами пропорции. Кроме того, можно использовать разделение данных обучения и тестирования вручную. Этот вариант доступен только в том случае, если вы добавили речевые фрагменты в набор тестирования во время маркировки речевых фрагментов.
Нажмите кнопку Обучить.
Выберите идентификатор задания обучения в списке. Откроется панель, где можно проверить ход обучения, состояние задания и другие сведения для этого задания.
Примечание.
- Модели будут создаваться только с помощью успешно завершенных заданий обучения.
- Обучение может занять от нескольких минут до нескольких часов в зависимости от количества речевых фрагментов.
- В каждый момент времени может выполняться только одно задание на обучение. Вы не сможете запустить другие задания обучения в том же проекте, пока не завершится выполнение задания.
- Машинное обучение, используемое для обучения моделей, регулярно обновляется. Чтобы обучить предыдущую версию конфигурации, выберите " Выбрать здесь", чтобы измениться на странице "Пуск обучения " и выбрать предыдущую версию.
Отмена задания обучения
Отмена задания обучения в Language Studio
- На странице "Обучение модели" выберите задание обучения, которое вы хотите отменить, и выберите "Отмена" в верхнем меню.