Configurar capacidades de voz
Este artículo describe las funciones disponibles en Copilot Studio para la voz interactiva respuesta con Dynamics 365 servicio al cliente.
Para preparar su agente para los servicios de voz, consulte Integrar un agente habilitado para voz con Dynamics 365 servicio al cliente.
Para obtener una descripción general de los servicios de voz, consulte Use voz interactiva respuesta en sus agentes.
Modalidad de voz y DTMF
Un agente habilitado por voz es diferente de un agente basado en chat. El agente habilitado para voz incluye temas específicos del sistema de voz para manejar escenarios de voz. Un agente basado en chat utiliza la modalidad de texto como predeterminada. Un agente habilitado para voz utiliza la modalidad de voz y DTMF. Las dos modalidades no son compatibles entre sí.
Optimizar para voz le permite habilitar agentes con voz en diferentes modalidades y garantiza que las funciones relacionadas con el habla se creen correctamente.
Optimizar para voz
Si no iniciaste tu agente con la Plantilla de voz, debes habilitar la opción Optimizar para voz en la Configuración de agente.
Con un agente abierto, vaya a Configuración>Voz.
Seleccione Optimizar para voz. La opción Usar voz como modo de creación principal también está configurada de forma predeterminada.
Tu agente recibe las siguientes actualizaciones cuando habilitas las opciones Optimizar para voz y Usar voz como modo Autor principal :
- La capacidad de crear funciones de voz cuando se cambia de texto a Voz y DTMF.
- Los temas del sistema de voz Detección de silencio, Voz no reconocida y Pulsación del teclado desconocida se agregan automáticamente para manejar escenarios relacionados con la voz.
- Aumente la precisión con los datos agente (activados de forma predeterminada), lo que mejora la precisión del reconocimiento de voz.
- No hay cambios en el flujo agente existente, como el Menú principal tema para iniciar conversaciones con activadores DTMF mapeados.
Importante
- La configuración Optimizar para voz solo cambia las capacidades de creación de voz, no la configuración del canal. Active el canal de Telefonía para tener una agente totalmente habilitada para voz.
- Además, configurar Optimizar para voz en un agente que no fue configurado originalmente para funciones de voz significa que el agente no tendrá el Menú principal (versión preliminar) tema. Debe recrear ese tema, si es necesario.
Deshabilitar la optimización para voz
Puede deshabilitar Optimizar para voz en la creación de agente si no habilita el canal de telefonía. Después de desactivar Optimizar para voz, obtendrá los siguientes cambios:
- No se permite la creación de agente para funciones de voz, como DTMF e interrupción.
- Se establece la modalidad de texto predeterminada.
- No hay mejoras en el reconocimiento de voz, ya que no hay reconocimiento de voz.
- No hay temas de sistema de voz ni tema global de DTMF.
Nota
Algunos temas pueden informar errores durante la publicación si se hace referencia al tema DTMF deshabilitado en otros temas.
- No hay cambios en el flujo agente ni en la configuración del canal, ya que deshabilitar la optimización no desactiva el canal de telefonía.
- Habilitar o deshabilitar la opción optimizar para voz no tendrá efecto hasta que publiques tu agente. Si agente se habilita o deshabilita accidentalmente y cambia entre modalidades, tienes tiempo de solucionarlo.
Importante
Si sus canales de telefonía están habilitados, deshabilitar Optimizar para voz puede dañar su agente, ya que todos los activadores DTMF se deshabilitan automáticamente.
Utilizar la voz como modo de creación principal
Se debe seleccionar la modalidad de voz y DTMF para cada nodo en la creación de funciones de voz. Puede Seleccionar la preferencia de creación agente como usar la voz como autor principal. Esta configuración garantiza que todos los campos de entrada tengan la modalidad correcta. Si ya ha habilitado Optimizar para voz, la opción Utilizar la voz como modo de creación principal se habilita de forma predeterminada.
Disponibilidad de mensajes
Usar la modalidad de texto o voz puede afectar a su canal de manera diferente.
Modalidad de texto | Modalidad de voz | Canal de texto y voz agente |
---|---|---|
Mensaje disponible | Mensaje vacío | Mensaje disponible |
Mensaje vacío | Mensaje disponible | Mensaje no disponible |
Reconocimiento de voz automático personalizado
Los agentes habilitados por voz para un dominio específico, como médico o financiero, podrían ver a los usuarios utilizar términos financieros o jerga médica. Algunos términos y jergas son difíciles de convertir de voz a texto para el agente, que cuenta con capacidad de voz.
Para garantizar que la entrada de voz se reconozca con precisión, puede mejorar el reconocimiento de voz:
Con su agente abierto, Seleccionar Configuración>Voz.
Seleccionar Aumente la precisión con los datos de agente para habilitar la configuración de reconocimiento de voz automático personalizada predeterminada de agente.
Seleccione Guardar para confirmar los cambios.
Publica tu agente para ver los nuevos cambios.
Referencia de opciones de voz a nivel de agente
La página de configuración de detalles de agente le permite configurar tiempos de espera para varias funciones relacionadas con la voz. Las configuraciones aplicadas en esta página se convierten en las predeterminadas para los temas creados en su agente.
Para realizar cambios en las opciones de tiempo de espera a nivel de agente:
Con un agente abierto, Seleccionar Configuración>Voz.
Seleccionar la configuración que desee y Ajustar la configuración predeterminada de agente.
Seleccione Guardar para confirmar los cambios.
Configuración a nivel de agente
La siguiente tabla enumera cada opción y cómo se relaciona con la configuración de nivel de nodo.
Sección de nivel de agente habilitada por voz | Ajuste | Description | Default value | Sustitución en nivel de nodo |
---|---|---|---|---|
DTMF | Tiempo de espera entre dígitos | Tiempo máximo (milisegundos) permitido mientras se espera la siguiente entrada de clave de DTMF. Aplica entrada DTMF de varios dígitos solo cuando los usuarios no cumplen con la longitud máxima de entrada. | 3000 ms | Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos |
DTMF | Tiempo de espera de terminación | Duración máxima (milisegundos) para esperar una clave de terminación de DTMF. El límite se aplica cuando el usuario alcanza la longitud máxima de entrada y no pulsó la tecla de terminación. Se aplica solo a la entrada DTMF de varios dígitos. Una vez transcurrido el tiempo límite y no llega la clave DTMF de finalización, agente finaliza el reconocimiento y devuelve el resultado hasta ese apuntar. Si se configura en "continuar sin esperar", agente no espera la clave de finalización. Agente regresa inmediatamente después de que el usuario ingresa la longitud máxima. |
2000 ms | Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos |
Detección de silencio | Tiempo de espera de detección de silencio | Silencio máximo (milisegundos) permitido mientras se espera la entrada de usuario. El límite se aplica cuando agente no detecta ninguna entrada del usuario. El valor predeterminado es "sin tiempo de espera de silencio". agente espera infinitamente la entrada del usuario. La detección de silencio para la voz multiplica el período posterior a que la voz termina de hablar. |
Sin tiempo de espera de silencio | Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos Tema del sistema (propiedades de detección de silencio Gatillo) para Configurar la detección de silencio y los tiempos de espera |
Recopilación de voz | Tiempo de espera de finalización de la expresión | El límite se aplica cuando el usuario hace una pausa durante o después del discurso. Si la pausa es más larga que el límite de tiempo de espera, agente supone que el usuario terminó de hablar. El valor máximo para el tiempo de espera de finalización de la expresión es 3000 milisegundos. Cualquier valor superior a 3000 ms se reduce a 3000 milisegundos. |
1500 ms | Nodo de preguntas con propiedades de voz. |
Recopilación de voz | Tiempo de espera de reconocimiento de voz | Determina cuánto tiempo permite agente para la entrada del usuario una vez que comienza a hablar. El valor predeterminado es 12000 milisegundos (unos 12 segundos). Sin tiempo de espera de reconocimiento significa tiempo infinito. Agente vuelve a plantear la pregunta. Si no hay respuesta, la voz está más allá del Tiempo de espera del reconocimiento de voz. | 12,000 ms | Nodo de preguntas con propiedades de voz. |
Mensajes de latencia | Retraso de envío del mensaje | Determina cuánto tiempo espera agente antes de entregar el mensaje de latencia después de que se inicia una solicitud de operación en segundo plano. El tiempo se establece en milisegundos. | 500 ms | Propiedades del nodo de acción para operación de larga duración |
Mensajes de latencia | Tiempo mínimo de reproducción | El mensaje de latencia se reproduce durante un período de tiempo mínimo, incluso si la operación en segundo plano se completa mientras se reproduce el mensaje. El tiempo se establece en milisegundos. | 5000 ms | Propiedades del modo de acción para operación de larga duración |
Sensibilidad de voz | Sensibilidad | Controla cómo el sistema equilibra la detección de voz y ruido de fondo. Reduzca la sensibilidad para entornos ruidosos, espacios públicos y funcionamiento con manos libres. Aumente la sensibilidad para entornos silenciosos, usuarios que hablan suavemente o detección de comandos de voz. La configuración predeterminada es 0.5. | 0.5 | No hay anulaciones a nivel de nodo para este control. |
Habilitar interrupción
Habilitar la intrusión permite que sus usuarios agente interrumpan su agente. Esta función puede ser útil cuando no necesitas que el usuario agente escuche el mensaje completo. Por ejemplo, es posible que las personas que llaman ya conozcan las opciones del menú porque las escucharon en el pasado. Con la función de intrusión, el usuario agente puede ingresar la opción que desee, incluso si agente no ha terminado de enumerar todas las opciones.
Escenarios de desactivación de interrupción
- Deshabilite la interrupción si actualizó recientemente un mensaje agente o si el mensaje de cumplimiento no debe interrumpirse.
- Deshabilite la interrupción en el primer mensaje agente para garantizar que los usuarios de agente estén al tanto de la información nueva o esencial.
Especificaciones
Barge-in admite interrupciones basadas en DTMF y voz del usuario agente.
La interrupción se puede controlar con cada mensaje, en un solo lote. Coloque los nodos
barge-in-disabled
en secuencia antes de cada nodo donde se permite la interrupción. De lo contrario, la interrupción deshabilitada se trata como un mensaje de autorización de interrupción.Una vez que finaliza la cola de un lote, la configuración automática de interrupción se restablece para el siguiente lote y se controla mediante el indicador de interrupción en cada mensaje posterior. Puede colocar nodos de interrupción deshabilitada a medida que la secuencia comienza nuevamente.
Propina
Si hay nodos de mensajes consecutivos, seguidos de un nodo de preguntas, los mensajes de voz para estos nodos se definen como un lote. Un lote comienza con un nodo de mensaje y se detiene en el nodo de pregunta, que está esperando la entrada del usuario.
Evite deshabilitar la interrupción para mensajes largos, especialmente si espera que los usuarios de agente interactúen con agente con frecuencia. Si tu usuario agente ya conoce las opciones del menú, permítele que se autogestione donde quiera ir.
Configurar la interrupción
Con un nodo Mensaje o Pregunta seleccionado, establezca la modalidad deseada en Voz y DTMF.
Seleccione el icono Más (…) del nodo y luego seleccione Propiedades.
Para los nodos Mensaje, el panel Propiedades de actividad de envío se abre en el lateral del lienzo de creación.
Seleccione Permitir interrupción.
Para los nodos Pregunta, se abre el panel Propiedades de la pregunta, luego seleccione Voz.
En las propiedades de Voz, seleccione Permitir interrupción.
Guarde el tema para confirmar los cambios.
Configurar la detección de silencio y los tiempos de espera
La detección de silencio le permite configurar cuánto tiempo espera agente la entrada del usuario y la acción que realiza si no recibe ninguna entrada. La detección de silencio es más útil en respuesta para una pregunta a nivel de nodo o cuando agente espera a que un frase desencadenadora comience un nuevo tema.
Puede configurar los tiempos de espera predeterminados para los temas .
Para reemplazar los valores por defecto de un nodo:
Seleccione el icono Más (…) del nodo y luego seleccione Propiedades.
Se abre el panel de Propiedades de pregunta.
Seleccione Voz y realice ajustes en las siguientes configuraciones:
Opción de tiempo de espera de detección de silencio Description Utilice la configuración agente El nodo utiliza la configuración global para la detección de silencio. Deshabilitar para este nodo El agente espera indefinidamente un respuesta. Personalizar en milisegundos Agente espera un tiempo específico antes de repetir la pregunta.
Acción alternativa
Puede configurar algunos comportamientos como acción alternativa:
- ¿Cuántas veces debe repetir una pregunta el agente?
- Qué debe decir el mensaje de repetición de solicitud
- Qué debe hacer agente después de un número específico de repeticiones
Entrada de voz
Para la entrada de voz puede especificar:
- Tiempo de espera de finalización de la expresión: cuánto tiempo espera agente después de que el usuario termina de hablar
- Tiempo de espera de reconocimiento de voz: cuánto tiempo le da agente al usuario una vez que comienza a responder
Para configurar el comportamiento de detección de silencio cuando su agente espera un frase desencadenadora, Ajustar, la configuración en En silencio tema del sistema.
Agregar un mensaje de latencia para las operaciones de larga duración
Para operaciones backend largas, su agente puede enviar un mensaje a los usuarios para notificarles sobre los procesos más largos. Los agentes de un canal de mensajería también pueden enviar un mensaje de latencia.
Reproducción de audio de mensajes de latencia | Mensaje de latencia en el chat. |
---|---|
Continúa el bucle hasta que se completa la operación. | Se envía solo una vez cuando se alcanza la latencia especificada. |
En Copilot Studio, su agente puede repetir un mensaje después de activar un Power Automate flujo:
Seleccione el icono Más (…) del nodo y luego seleccione Propiedades. Se abre el panel de Propiedades de acción.
Seleccione Enviar un mensaje.
En la sección Mensaje , ingresa lo que quieres que diga el agente. Puede utilizar SSML para modificar el sonido del mensaje. Agente repite el mensaje hasta que se completa el flujo.
Puede Ajustar indicar cuánto tiempo debe esperar el agente antes de repetir el mensaje en la sección Retraso . Puede establecer una cantidad mínima de tiempo de espera, incluso si se completa el flujo.
Configurar terminación de llamada
Para configurar su agente para finalizar la llamada y colgar, agregue un nuevo nodo (+) y luego Seleccionar tema management>Finalizar conversación.
Formatear síntesis de voz con SSML
Puede utilizar el lenguaje de marcado de síntesis de voz (SSML) para cambiar el sonido de agente cuando lee mensajes en voz alta. Por ejemplo, puede cambiar el tono o la frecuencia de las palabras habladas, la velocidad y el volumen.
SSML utiliza etiquetas para encerrar el texto que desea modificar, similar a HTML. Puede utilizar las siguientes etiquetas en Copilot Studio:
Etiqueta SSML | Description | Enlace a la documentación del servicio de voz |
---|---|---|
<audio src="_URL to an audio file_"/> |
Agregue la URL a un archivo de audio dentro de la etiqueta. El archivo debe ser accesible para el usuario agente. | Agregar audio grabado |
<break /> |
Insertar pausas o descansos entre palabras. Inserte opciones de descanso dentro de la etiqueta. | Agregar un descanso |
<emphasis> Texto que desea modificar</emphasis> |
Agregue niveles de estrés a las palabras o frases. Agregue opciones de énfasis en la etiqueta de apertura. Agregue la etiqueta de cierre después del texto que desee modificar. | Ajustar opciones de énfasis |
<prosody> Texto que desea modificar</prosody> |
Especifique los cambios de tono, contorno, rango, velocidad y volumen. Agregue opciones de prosodia en la etiqueta de apertura. Agregue la etiqueta de cierre después del texto que desee modificar. | Ajustar opciones de prosodia |
<lang xml:lang="xx-XX"> Texto que desea modificar</lang> |
Ajustar el idioma hablado dentro del mismo mensaje cuando se utiliza una voz neuronal multilingüe. | Ajustar hablando idiomas |
Buscar y usar una etiqueta
SSML utiliza etiquetas para encerrar el texto que desea modificar, como HTML.
Puede utilizar las siguientes etiquetas en Copilot Studio:
Con un nodo Mensaje o Pregunta seleccionado, cambie el modo a Voz y DTMF.
Seleccione el menú Etiquetas SSML y seleccione una etiqueta.
El cuadro de mensaje se completa con la etiqueta. Si ya tiene texto en el cuadro de mensaje, el código de la etiqueta se agrega al final de su mensaje.
Rodee el texto que desee modificar con las etiquetas de apertura y cierre. Puede combinar varias etiquetas y personalizar partes individuales del mensaje con etiquetas individuales.
Propina
Puede ingresar manualmente etiquetas SSML que no aparecen en el menú de ayuda. Para obtener más información sobre otras etiquetas que puede usar, consulte Mejorar la síntesis con el lenguaje de marcado de síntesis de voz.
Transferir una llamada a un representante o a un número de teléfono externo
Puedes hacer que agente transfiera la llamada a un número de teléfono externo. Copilot Studio admite la transferencia ciega a un número de teléfono PSTN y al número de ruta directa.
Para transferir a un número de teléfono externo:
En el tema que desee modificar, agregue un nuevo nodo (+). En el menú del nodo, seleccione Administración de temas y luego Transferir conversación.
En Tipo de transferencia, seleccione Transferir a un número de teléfono externo e introduzca el número de transferencia.
(Opcionalmente) agregue un encabezado SIP UUI al la llamada de teléfono.
Este encabezado es una cadena de pares
key=value
, sin espacios ni caracteres especiales, que se muestra para que la lean los sistemas externos.Seleccione el icono Más (…) del nodo y luego seleccione Propiedades. Se abre el panel Transferir propiedades de conversación.
En Encabezado SIP UUI, introduzca la información que desee enviar con la transferencia de llamada. No se admiten variables al realizar transferencias a un número de teléfono externo.
Precaución
Solo se envían los primeros 128 caracteres de la cadena.
El encabezado solo acepta números, letras, signos iguales (
=
) y punto y coma (;
). Todos los demás caracteres, incluidos espacios, llaves y corchetes, o fórmulas, no se admiten y pueden provocar que la transferencia falle.
Propina
Incluya un +
en su número de teléfono para el código de país correspondiente.
La salida de transferencia con SIP UUI para el número de teléfono de destino debe utilizar enrutamiento directo. Los números de teléfono de la red telefónica conmutada (PSTN) no admiten transferencias de encabezado SIP UUI.
Para transferir a un representante, consulte Activadores explícitos.
Usar variables de voz
Copilot Studio admite la población de variables. Puede utilizar variables predefinidas o crear variables personalizadas.
Nota
- Para obtener más información sobre cómo usar y crear un variables en Copilot Studio, consulte Trabajar con variables.
- Para obtener información sobre las variables de actividad y conversación adicionales disponibles para los agentes habilitados para voz, consulte Variables para agentes habilitados para voz.
Un agente habilitado para voz admite variables de contexto. Copilot Studio Estas variables te ayudan a integrar tus conversaciones agente con Dynamics 365 servicio al cliente al transferir una llamada.
Para obtener más información sobre las variables de contexto en Dynamics 365 servicio al cliente,, consulte Variables de contexto para Copilot Studio bots.
Esta integración admite estos escenarios con las siguientes variables al realizar la transferencia:
Variables | Type | Description |
---|---|---|
System.Activity.From.Name |
String | Identificador de llamadas del usuario agente |
System.Activity.Recipient.Name |
String | El número utilizado para llamar o Conectar al agente |
System.Conversation.SipUuiHeaderValue |
String | Valor del encabezado SIP al realizar transferencias a través de un número de teléfono de enrutamiento directo |
System.Activity.UserInputType |
String | Si el usuario agente utilizó DTMF o voz en la conversación |
System.Activity.InputDTMFKey |
String | Entrada DTMF sin procesar del usuario agente |
System.Conversation.OnlyAllowDTMF |
Booleana | La voz ignora la entrada de voz cuando se establece en true |
System.Activity.SpeechRecognition.Confidence |
Number | El valor de confianza (entre 0 y 1) del último evento de reconocimiento de voz. |
System.Activity.SpeechRecognition.MinimalFormattedText |
String | Resultados del reconocimiento de voz (como texto sin formato) antes de que Copilot Studio aplicara su modelo dedicado de comprensión del lenguaje natural. |
Nota
- Un agente con frases Gatillo grandes y tamaño de entidad tarda más en publicarse.
- Si varios usuarios publican el mismo agente al mismo tiempo, su acción de publicación se bloquea. Debes volver a publicar agente después de que otros terminen sus ediciones existentes de agente.
Para obtener más información sobre los aspectos básicos de la publicación, consulte Conceptos clave: publicar e implementar su agente.