Общие сведения о распознавании речи и синтезе

2 мин

Распознавание речи принимает произнесенное слово и преобразует его в данные, которые можно обрабатывать, часто путем транскрибирования в текст. Произнесенные слова могут быть в форме записанного голоса в аудиофайле или в виде живой речи с микрофона. Выполняется анализ речевых оборотов во входных звуковых данных, чтобы определить распознаваемые шаблоны, которые сопоставлены со словами. Для этого программное обеспечение обычно использует несколько моделей, включая:

акустическую модель, которая преобразует звуковой сигнал в фонемы (представления определенных звуков);
языковую модель, которая сопоставляет фонемы со словами, обычно используя статистический алгоритм, прогнозирующий наиболее вероятную последовательность слов на основе фонем.

Распознанные слова обычно преобразуются в текст, который можно использовать для различных целей, таких как:

предоставление скрытых субтитров для записанных видео или видеотрансляций;
создание расшифровки телефонного разговора или собрания;
автоматическая запись под диктовку;
определение предполагаемых входных данных пользователя для дальнейшей обработки.

Синтез речи связан с вокализацией данных, как правило, путем преобразования текста в речь. Для решения синтеза речи обычно требуется следующая информация:

Текст, который нужно провести
Голос, используемый для вокализации речи

Чтобы синтезировать речь, система обычно размечает текст, чтобы разбить его на отдельные слова, и назначает каждому слову фонетические звуки. Затем она разбивает фонетическую транскрипцию на интонационные единицы (такие как речевые обороты, фразы или утверждения) для создания фонем, которые будут преобразованы в звуковой формат. Эти фонемы затем синтезируются как звук и могут быть назначены определенный голос, скорость речи, шаг и громкость.

Вы можете использовать результат синтеза речи для многих целей, таких как:

Создание речевых ответов на входные данные пользователей
Создание голосовых меню для телефонных систем
Чтение сообщений электронной почты или текстовых сообщений вслух в сценариях без рук
Трансляция объявлений в общественных местах, таких как железнодорожные станции или аэропорты

Общие сведения о распознавании речи и синтезе

Обратная связь