Общие сведения о распознавании речи и синтезе

Завершено

Распознавание речи принимает произнесенное слово и преобразует его в данные, которые можно обрабатывать, часто путем транскрибирования в текст. Произнесенные слова могут быть в форме записанного голоса в аудиофайле или в виде живой речи с микрофона. Выполняется анализ речевых оборотов во входных звуковых данных, чтобы определить распознаваемые шаблоны, которые сопоставлены со словами. Для этого программное обеспечение обычно использует несколько моделей, включая:

  • акустическую модель, которая преобразует звуковой сигнал в фонемы (представления определенных звуков);
  • языковую модель, которая сопоставляет фонемы со словами, обычно используя статистический алгоритм, прогнозирующий наиболее вероятную последовательность слов на основе фонем.

Распознанные слова обычно преобразуются в текст, который можно использовать для различных целей, таких как:

  • предоставление скрытых субтитров для записанных видео или видеотрансляций;
  • создание расшифровки телефонного разговора или собрания;
  • автоматическая запись под диктовку;
  • определение предполагаемых входных данных пользователя для дальнейшей обработки.

Синтез речи связан с вокализацией данных, как правило, путем преобразования текста в речь. Для решения синтеза речи обычно требуется следующая информация:

  • Текст, который нужно провести
  • Голос, используемый для вокализации речи

Чтобы синтезировать речь, система обычно размечает текст, чтобы разбить его на отдельные слова, и назначает каждому слову фонетические звуки. Затем она разбивает фонетическую транскрипцию на интонационные единицы (такие как речевые обороты, фразы или утверждения) для создания фонем, которые будут преобразованы в звуковой формат. Эти фонемы затем синтезируются как звук и могут быть назначены определенный голос, скорость речи, шаг и громкость.

Вы можете использовать результат синтеза речи для многих целей, таких как:

  • Создание речевых ответов на входные данные пользователей
  • Создание голосовых меню для телефонных систем
  • Чтение сообщений электронной почты или текстовых сообщений вслух в сценариях без рук
  • Трансляция объявлений в общественных местах, таких как железнодорожные станции или аэропорты