Поделиться через


Рекомендации по обучению модели речи

Примечание.

Настройка модели речи, включая обучение произношения, поддерживается только в пробных учетных записях Индексатора видео Azure и учетных записях Resource Manager. Она не поддерживается в классических учетных записях. Инструкции по обновлению типа учетной записи без затрат см. в учетной записи Индексатора видео Azure AI. Инструкции по использованию пользовательского языка см. в разделе "Настройка языковой модели".

Благодаря интеграции Индексатора видео azure с службами службы "Речь искусственного интеллекта Azure" универсальная языковая модель используется в качестве базовой модели, которая обучена данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Однако иногда транскрибирование базовой модели не точно обрабатывает некоторое содержимое. В таких ситуациях настраиваемая модель речи может использоваться для улучшения распознавания словаря или произношения, относящегося к вашему содержимому, предоставляя текстовые данные для обучения модели. С помощью процесса создания и адаптации моделей настройки речи содержимое можно правильно транскрибировать. Дополнительная плата за использование настройки речи индексаторов видео не взимается.

Когда следует использовать настраиваемую модель речи?

Если содержимое содержит конкретную терминологию отрасли или при просмотре результатов транскрибирования индексатора видео, вы заметите неточности, вы можете создать и обучить пользовательскую модель речи, чтобы распознать термины и улучшить качество транскрибирования. Это может быть полезно только для создания пользовательской модели, если соответствующие слова и имена, как ожидается, будут отображаться многократно в содержимом, который планируется индексировать. Обучение модели иногда является итеративным процессом, и вы можете обнаружить, что после первоначального обучения результаты по-прежнему могут использовать улучшения и воспользоваться дополнительными учебными занятиями, см . раздел "Улучшение пользовательской модели " для получения рекомендаций.

Однако если вы заметите несколько слов или имен, транскрибированных неправильно в расшифровке, пользовательская модель речи может не потребоваться, особенно если слова или имена, как ожидается, не будут использоваться в содержимом, которое планируется индексировать в будущем. Вы можете просто изменить и исправить расшифровку на веб-сайте Индексатора видео (см. раздел " Просмотр и обновление транскрибирования в веб-сайте Индексатора видео Azure") и не нужно обращаться к ней с помощью пользовательской модели распознавания речи.

Список языков, поддерживающих пользовательские модели и произношение, см. в столбцах "Настройка и произношение" таблицы поддержки языка в службе поддержки языка в Индексаторе видео в Azure AI Video Indexer.

Обучение наборов данных

При индексировании видео можно использовать настраиваемую модель речи для улучшения транскрибирования. Модели обучены, загружая их с помощью наборов данных, которые могут включать данные обычного текста и данные произношения.

Текст, используемый для тестирования и обучения пользовательской модели, должен включать примеры из разнообразного набора содержимого и сценариев, которые вы хотите распознать модель. При создании и обучении наборов данных следует учитывать следующие факторы:

  • Включите текст, охватывающий типы словесных инструкций, которые пользователи делают при взаимодействии с моделью. Например, если ваше содержимое в первую очередь связано с спортом, обучите модель с содержимым, содержащим терминологию и предметы, связанные с спортом.
  • Включите все формы вариантности речи, которые должна распознать модель. Многие факторы могут отличаться от речи, включая акценты, диалекты и смешивание языка.
  • Включайте только данные, относящиеся к содержимому, которое планируется транскрибировать. В том числе другие данные могут повредить качество распознавания в целом.

Типы наборов данных

Существует два типа набора данных, которые можно использовать для настройки. Чтобы определить, какой набор данных следует использовать для решения проблем, см. следующую таблицу:

Вариант использования Тип данных
Улучшение точности распознавания в терминологии и грамматике конкретной отрасли, например, медицинских терминов или ИТ-жаргона. с обычным текстом;
Определите фонетическую и отображаемую форму слова или термина, которые имеют нестандартное произношение, например, названия продуктов или акронимы. Данные произношения

Обычные текстовые данные для обучения

Набор данных, включая предложения обычного текста связанного текста, можно использовать для улучшения распознавания слов и фраз, относящихся к домену. Связанные текстовые предложения в первую очередь уменьшают количество ошибок замены, связанных с неправильным распознаванием распространенных слов и слов, зависящих от области, показывая их в контексте. Слова, зависящие от области, могут быть нераспространенными или искусственными словами, но их произношение должно быть простым для распознавания.

Рекомендации по набору данных обычного текста

  • Предоставьте предложения, связанные с доменом, в одном текстовом файле. Вместо использования полных предложений можно отправить список слов. Однако, хотя это добавляет их в словарь, он не учит системе, как слова обычно используются. При наличии полных или частичных речевых фрагментов (предложений или фраз, которые обычно говорят пользователи) языковая модель может изучать новые слова и особенности их применения. Пользовательская языковая модель полезна не только для отправки в систему новых слов, но и для повышения вероятности узнавания в приложении уже известных слов. Система обучается лучше при использовании полных фраз.
  • Используйте текстовые данные, близкие к ожидаемым речевым фрагментам. Речевые фрагменты необязательно должны быть полными или грамматически правильными, но они должны точно отражать речевой ввод, который модель должна распознавать.
  • Попробуйте использовать каждое предложение или ключевое слово в отдельной строке.
  • Чтобы увеличить вес термина (например названия продуктов) добавьте несколько предложений, которые включают этот термин.
  • Для распространенных фраз, используемых в вашем контенте, предоставляется множество примеров, так как система сообщает системе прослушивать эти термины. 
  • Избегайте включения необычных символов (~, # @ % &) при отмене. Предложения, в которых они отображаются, также удаляются.
  • Избегайте слишком больших входных данных, таких как сотни тысяч предложений, потому что это разбавляет эффект повышения.

Используйте эту таблицу, чтобы обеспечить правильное форматирование своего файла с набором данных обычного текста.

Свойство Значение
Кодировка текста Метка порядка байтов UTF-8
Количество речевых фрагментов в строке 1
Максимальный размер файла 200 МБ

Попробуйте выполнить следующие рекомендации в файлах обычного текста:

  • Избегайте повторяющихся символов, слов или групп слов более трех раз, таких как "да да да", так как служба может удалять строки с слишком большим количеством повторений.
  • Не используйте специальные символы или символы UTF-8 выше U+00A1.
  • URI отклоняется.
  • Для некоторых языков (например, японского или корейского) импорт больших объемов текстовых данных может занять очень много времени или привести к истечению времени ожидания. Рассмотрите возможность разделения передаваемых данных на несколько текстовых файлов до 20 000 строк каждый.

Данные произношения для обучения

Вы можете добавить в настраиваемую модель речи настраиваемый набор данных произношения, чтобы улучшить распознавание неправильных слов, фраз или имен.

Наборы данных произношения должны включать речвую форму слова или фразы, а также распознаваемую отображаемую форму. Разговорная форма — это фонетическая последовательность, указанная, например "Triple A". Он может состоять из букв, слов, слогов или сочетания всех трех. Распознанная отображаемая форма — это способ отображения слова или фразы в транскрибировании. Некоторые примеры приведены в следующей таблице:

Распознанная отображаемая форма Речевая форма
3CPO три си пи о
CNTK си эн ти кей
AAA Тройной A

Наборы данных произношения предоставляются в одном текстовом файле. Включите речевые фрагменты и настраиваемое произношение для каждого из них. Каждая строка в файле должна начинаться с распознанной формы, за которой через знак табуляции следует фонетическая последовательность с разделителями-пробелами.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e 

При создании и обучении наборов данных произношения следует учитывать следующее:

Не рекомендуется использовать пользовательские файлы произношения для изменения произношения распространенных слов.

Если существует несколько вариантов того, как слово или имя неправильно транскрибируется, рассмотрите возможность использования некоторых или всех из них при обучении набора данных произношения. Например, если Роберт упоминается пять раз в видео и транскрибируется как Robort, Веревку и грабителей. Вы можете попробовать включить все варианты в файл, как в следующем примере, но быть осторожным при обучении с фактическими словами, как ограбители, как будто ограбители упоминаются в видео, он транскрибируется как Роберт.

Robert Roport
Robert Ropert
Robert Robbers

Модель произношения не предназначена для решения акронимов. Например, если вы хотите, чтобы доктор был транскрибирован как доктор, это невозможно сделать с помощью модели произношения.

Ознакомьтесь со следующей таблицей, чтобы убедиться, что файлы наборов данных с вариантами произношения допустимы и правильно отформатированы.

Свойство Значение
Кодировка текста Спецификация UTF-8 (для английского языка также поддерживается ANSI)
Число форм произношения на строку 1
Максимальный размер файла 1 МБ (1 КБ для бесплатного уровня)

Улучшение пользовательских моделей

Обучение модели произношения может быть итеративным процессом, так как вы можете получить больше знаний о произношении темы после первоначального обучения и оценки результатов модели. Так как существующие модели не могут быть изменены или изменены, обучение модели итеративно требует создания и отправки наборов данных с дополнительной информацией, а также обучения новых пользовательских моделей на основе новых наборов данных. Затем вы будете переиндексировать файлы мультимедиа с помощью новой пользовательской модели речи.

Пример:

Предположим, вы планируете индексировать спортивное содержимое и предвидеть проблемы точности расшифровки с конкретной спортивной терминологией, а также в именах игроков и тренеров. Перед индексированием вы создали модель речи с набором данных обычного текста с содержимым, содержащим соответствующую спортивную терминологию и набор данных произношения с некоторыми именами игроков и тренеров. Вы индексировали несколько видео с помощью пользовательской модели речи и при просмотре созданной расшифровки найдите, что хотя терминология транскрибируется правильно, многие имена не являются. Вы можете выполнить следующие действия, чтобы повысить производительность в будущем:

  1. Просмотрите расшифровку и запишите все неправильно транскрибированные имена. Они могут попасть в две группы:

    • Имена не в файле произношения.
    • Имена в файле произношения, но они по-прежнему неправильно транскрибируются.
  2. Создайте файл набора данных. Скачайте файл набора данных произношения или измените сохраненный исходный файл локально. Для группы A добавьте новые имена в файл с неправильным транскрибированием (Майкл Майкл). Для группы B добавьте дополнительные строки с каждой строкой с правильным именем и уникальным примером неправильного транскрибирования. Например:

    Stephen Steven
    Stephen Steafan
    Stephen Steevan

  3. Отправьте этот файл в виде нового файла набора данных.

  4. Создайте новую модель речи и добавьте исходный набор данных обычного текста и новый файл набора данных для произношения.

  5. Переиндексировать видео с помощью новой модели речи.

  6. При необходимости повторите шаги 1–5, пока результаты не будут удовлетворительными.