Reconocimiento de voz

Artículo
06/13/2023

[Microsoft Agent está en desuso a partir de Windows 7 y puede no estar disponible en versiones posteriores de Windows].

El reconocimiento de voz proporciona una interfaz muy natural y familiar para interactuar con caracteres. Sin embargo, la entrada de voz también presenta muchos desafíos. Los motores de voz funcionan actualmente sin partes importantes del repertorio de comunicación de voz humana, como gestos, entonación y expresiones faciales. Además, la voz natural normalmente no está delimitada. Es fácil que el hablante supere el vocabulario actual, o gramática, del motor. De forma similar, el orden de palabras o palabras puede variar para cualquier solicitud o respuesta determinada. Además, los motores de reconocimiento de voz a menudo deben tratar con grandes variaciones en el entorno del hablante. Por ejemplo, el ruido de fondo, la calidad del micrófono y la ubicación pueden afectar a la calidad de entrada. Del mismo modo, las diferentes pronunciaciones del hablante o incluso las variaciones del mismo hablante, como cuando el hablante tiene un frío, hacen que sea un desafío convertir los datos acústicos en comprensión representacional. Por último, los motores de voz también deben tratar palabras o frases similares en un lenguaje, como "nuevo", "conocido", y "gnu", o "arruinar una bonita playa" y "reconocer voz".

La voz no siempre es la mejor forma de entrada para una tarea. Debido a la naturaleza de cambio de voz, a menudo puede ser más lento que otras formas de entrada. Al igual que el teclado, la entrada de voz es una interfaz deficiente para apuntar a menos que se proporcione algún tipo de representación mnemónica. Por lo tanto, considere siempre si la voz es la entrada más adecuada para una tarea. Es mejor evitar el uso de voz como interfaz exclusiva para cualquier tarea. Proporcione otras formas de acceder a cualquier funcionalidad básica mediante métodos como el mouse o el teclado. Además, aproveche la naturaleza multi modal del uso de voz en la interfaz visual combinando la entrada de voz con información visual que ayuda a especificar el contexto y las opciones.

Por último, el uso correcto de la entrada de voz solo se debe en parte a la calidad de la tecnología. Incluso el reconocimiento humano, que supera cualquier tecnología de reconocimiento actual, a veces falla. Sin embargo, en la comunicación humana usamos estrategias que mejoran la probabilidad de éxito y que proporcionan recuperación de errores cuando algo va mal. Por lo tanto, la eficacia de la entrada de voz también depende de la calidad de la interfaz de usuario que la presenta.

El estudio de modelos humanos de interacción de voz puede ser útil al diseñar interfaces de voz más naturales. Grabar diálogos de voz humana reales para escenarios concretos puede ayudarle a comprender mejor las construcciones y patrones usados, así como formas eficaces de comentarios y recuperación de errores. Puede ayudar a determinar el vocabulario adecuado que se va a usar (para la entrada y la salida). Es mejor diseñar una interfaz de voz basada en la forma en que las personas realmente hablan que simplemente derivarla de la interfaz gráfica en la que funciona.

Tenga en cuenta que Microsoft Agent usa Microsoft Speech API (SAPI) para admitir el reconocimiento de voz. Esto permite que Microsoft Agent se use con una variedad de motores compatibles. Aunque Microsoft Agent especifica determinadas interfaces básicas, los requisitos de rendimiento y la calidad de un motor pueden variar.

La voz no es el único medio de admitir interfaces conversacionales. También puede usar el procesamiento en lenguaje natural de la entrada del teclado en lugar de o además de la voz. En esas situaciones, puede seguir aplicando instrucciones para la entrada de voz.

Compartir a través de

Reconocimiento de voz

Comentarios

Recursos adicionales