Aclaración y limitación de opciones

Artículo
06/13/2023

[Microsoft Agent está en desuso a partir de Windows 7 y puede no estar disponible en versiones posteriores de Windows.

El reconocimiento de voz se vuelve más correcto cuando el usuario aprende el intervalo de gramática adecuada. También funciona mejor cuando el intervalo de opciones es limitado. Cuanto menos abierta sea la entrada, mejor será que el motor de voz pueda analizar la entrada de información acústica.

Microsoft Agent incluye varias disposiciones integradas que aumentan el éxito de la entrada de voz. La primera es la ventana Comandos que se muestra cuando el usuario dice "Abrir ventana comandos" o "Qué puedo decir?" (o cuando el usuario elige Abrir ventana comandos en el menú emergente del carácter). La ventana de comandos sirve como guía visual de la gramática activa del motor de voz. También reduce los errores de reconocimiento activando solo la gramática de voz de la aplicación activa de entrada y los comandos globales de Microsoft Agent. Por lo tanto, la gramática activa del motor de voz se aplica al contexto inmediato. Para obtener más información sobre la ventana Comandos, vea Introducción a la interfaz de programación de Microsoft Agent.

Al crear comandos habilitados para voz de Microsoft Agent, puede crear el texto de subtítulo que aparece en la ventana Comandos, así como su texto de voz (gramática), las palabras que el motor debe usar para hacer coincidir este comando. Intente siempre hacer que los comandos sean lo más distintivos posible. Cuanto mayor sea la diferencia entre la redacción de los comandos, especialmente para el texto de voz, más probable es que el motor de voz pueda discriminar entre los comandos hablados y proporcionar una coincidencia precisa. Evite también comandos de una sola palabra o muy cortos. Por lo general, más información acústica en una expresión hablada proporciona al motor una mejor oportunidad de hacer una coincidencia precisa.

Al definir el texto de voz de un comando, proporcione una variedad razonable de palabras. Las solicitudes que significan lo mismo se pueden expresar de forma muy diferente, como se muestra en el ejemplo siguiente:

Añade un poco de pepperoni.

Me gustaría un pepperoni.

¿Podrías añadir un poco de pepperoni?

Pepperoni, por favor.

Microsoft Agent le permite especificar fácilmente alternativas o palabras opcionales para la gramática de voz de la aplicación. Incluya palabras o frases alternativas entre paréntesis, separados por un carácter de barra vertical. Puede definir palabras opcionales si las incluye entre caracteres entre corchetes. También puede anidar alternativas o palabras opcionales. Además, también puede usar puntos suspensivos (...) en el texto de voz como marcador de posición para cualquier palabra. Sin embargo, el uso de puntos suspensivos con demasiada frecuencia puede dificultar que el motor distinga entre distintos comandos de voz. En cualquier caso, asegúrese siempre de que el texto de voz incluya al menos una palabra distintiva para cada comando que no sea opcional. Normalmente, debe coincidir con una palabra o palabras en el texto subtítulo que defina que aparece en la ventana Comandos.

Aunque puede incluir símbolos, signos de puntuación o abreviaturas en el texto de subtítulo, evite que aparezcan en el texto de voz. Muchos motores de reconocimiento de voz no pueden controlar símbolos y abreviaturas o pueden usarlos para establecer parámetros de entrada especiales. Además, escriba números. Esto también garantiza una compatibilidad con reconocimiento más confiable.

También puede usar avisos de directiva para evitar entradas abiertas. La directiva solicita referencia implícitamente a las opciones o los indica explícitamente, como se muestra en los ejemplos siguientes:

Prompt	Evaluación
¿Qué quieres?	Demasiado general, una solicitud de finalización abierta
Elija un ingrediente o estilo de pizza.	Bueno, si las opciones son visibles, pero siguen siendo generales
Diga "Hawaiian", "Chicago" o "The Works".	Mejor, una directiva explícita con opciones específicas

Esto guía al usuario hacia la emisión de un comando válido. Al sugerir las palabras o frases, es más probable que tenga que escribir palabras esperadas a cambio. Para evitar la repetición no natural, cambie la redacción o acorte el original para la presentación posterior, ya que el usuario se vuelve más experimentado con el estilo de entrada. Las indicaciones de directiva también se pueden usar en situaciones en las que el usuario no puede emitir un comando dentro de un tiempo prescrito o no puede proporcionar un comando esperado. Se pueden proporcionar avisos de directiva mediante la salida de voz, las interfaces de la aplicación o ambos. La clave es ayudar al usuario a conocer las opciones adecuadas.

La redacción influye en el éxito de un mensaje. Por ejemplo, el mensaje "¿Desea pedir su pizza?" podría generar una respuesta "Sí" o "No", pero también podría generar una solicitud de pedido. Defina las indicaciones para que no sean ambiguas o estén preparadas para aceptar una mayor variedad de respuestas posibles. Además, tenga en cuenta la tendencia de que las personas imitan las palabras y las construcciones que escuchan. Esto se puede usar a menudo para ayudar a evocar una respuesta adecuada como en el ejemplo siguiente:

Usuario: Muéstrame todos los mensajes de Paul.

Carácter:

Es más probable que esto suiciera el nombre completo de una de las partes con el prefijo posible de "quiero decir" o "quise decir".

Dado que los caracteres de Microsoft Agent funcionan dentro de la interfaz visual de Microsoft Windows, puede usar elementos visuales para proporcionar indicaciones de directiva para la entrada de voz. Por ejemplo, puede tener el gesto de carácter en una lista de opciones y solicitar que el usuario seleccione una o mostrar opciones en un cuadro de diálogo o ventana de mensaje. Esto tiene dos ventajas: sugiere explícitamente las palabras que quiere que el usuario hable y proporciona una manera alternativa para que el usuario responda.

También puede usar otros modos de interacción para sugerir sutilmente a los usuarios la gramática de voz adecuada, como se muestra en el ejemplo siguiente:

Usuario: (Hace clic en la opción pizza de estilo hawaiano con el mouse)

Carácter: Pizza de estilo hawaiano.

Usuario: (Hace clic en la opción Queso adicional con el mouse)

Carácter: Agregue "Queso adicional".

Otro factor importante en la entrada de voz correcta es señalar al usuario cuando el motor está listo para la entrada, ya que muchos motores de voz solo permiten una sola expresión a la vez. Microsoft Agent proporciona compatibilidad con esto de dos maneras. En primer lugar, si la tarjeta de sonido admite MIDI, Microsoft Agent genera un tono breve para indicar cuándo está disponible el canal de entrada de voz. En segundo lugar, la ventana Sugerencia de escucha muestra un mensaje de texto adecuado cuando el carácter (motor de voz) escucha la entrada. Además, esta sugerencia muestra lo que el motor oyó.

Compartir a través de

Aclaración y limitación de opciones

Comentarios

Recursos adicionales