Descripción del reconocimiento y la síntesis de voz

Completado

El reconocimiento de voz toma la palabra hablada y la convierte en datos que se pueden procesar, a menudo transcribiéndolos en texto. El texto oral puede tener el formato de voz grabada en un archivo de audio o de audio en directo procedente de un micrófono. Los patrones de voz se analizan en el audio para determinar patrones reconocibles que se asignan a palabras. Para conseguirlo, el software suele usar varios modelos, entre los que se incluyen:

  • Un modelo acústico que convierte la señal de audio en fonemas (representaciones de sonidos específicos).
  • Un modelo lingüístico que asigna fonemas a palabras, normalmente mediante un algoritmo estadístico que predice la secuencia más probable de palabras en función de los fonemas.

Las palabras reconocidas suelen convertirse en texto, que se puede usar para varios propósitos, por ejemplo:

  • Proporcionar subtítulos para vídeos grabados o en directo
  • Transcribir una llamada de teléfono o una reunión
  • Realizar un dictado de notas automatizado
  • Determinar la entrada de usuario prevista para su posterior procesamiento

La síntesis de voz hace referencia a los datos de vocalizaciones, normalmente convirtiendo texto a voz. Una solución de síntesis de voz suele necesitar la siguiente información:

  • El texto que se pronunciará
  • La voz que se va a usar para vocalizar

Para sintetizar la voz, el sistema suele acortar el texto para dividirlo en palabras individuales y asigna sonidos fonéticos a cada palabra. Después, divide la transcripción fonética en unidades prosódicas (como frases, cláusulas u oraciones) para crear fonemas que se convertirán al formato de audio. A continuación, estos fonemas se sintetizan como audio y se puede asignar una voz determinada, velocidad de habla, tono y volumen.

Puede usar la salida de la síntesis de voz para muchos propósitos, entre los que se incluyen los siguientes:

  • Generación de respuestas habladas a la entrada de usuario
  • Creación de menús de voz para sistemas telefónicos
  • Lectura en voz alta de mensajes de texto o de correo electrónico en escenarios de manos libres
  • Difusión de anuncios en lugares públicos, como estaciones de tren o aeropuertos