Общие сведения о распознавании речи и синтезе
Распознавание речи принимает произнесенное слово и преобразует его в данные, которые можно обрабатывать, часто путем транскрибирования в текст. Произнесенные слова могут быть в форме записанного голоса в аудиофайле или в виде живой речи с микрофона. Выполняется анализ речевых оборотов во входных звуковых данных, чтобы определить распознаваемые шаблоны, которые сопоставлены со словами. Для этого программное обеспечение обычно использует несколько моделей, включая:
- акустическую модель, которая преобразует звуковой сигнал в фонемы (представления определенных звуков);
- языковую модель, которая сопоставляет фонемы со словами, обычно используя статистический алгоритм, прогнозирующий наиболее вероятную последовательность слов на основе фонем.
Распознанные слова обычно преобразуются в текст, который можно использовать для различных целей, таких как:
- предоставление скрытых субтитров для записанных видео или видеотрансляций;
- создание расшифровки телефонного разговора или собрания;
- автоматическая запись под диктовку;
- определение предполагаемых входных данных пользователя для дальнейшей обработки.
Синтез речи связан с вокализацией данных, как правило, путем преобразования текста в речь. Для решения синтеза речи обычно требуется следующая информация:
- Текст, который нужно провести
- Голос, используемый для вокализации речи
Чтобы синтезировать речь, система обычно размечает текст, чтобы разбить его на отдельные слова, и назначает каждому слову фонетические звуки. Затем она разбивает фонетическую транскрипцию на интонационные единицы (такие как речевые обороты, фразы или утверждения) для создания фонем, которые будут преобразованы в звуковой формат. Эти фонемы затем синтезируются как звук и могут быть назначены определенный голос, скорость речи, шаг и громкость.
Вы можете использовать результат синтеза речи для многих целей, таких как:
- Создание речевых ответов на входные данные пользователей
- Создание голосовых меню для телефонных систем
- Чтение сообщений электронной почты или текстовых сообщений вслух в сценариях без рук
- Трансляция объявлений в общественных местах, таких как железнодорожные станции или аэропорты