Configurar recursos de voz

Artigo
01/08/2025

Este artigo descreve os recursos disponíveis no Copilot Studio para resposta interativa de voz com o Dynamics 365 Customer Service.

Para preparar seu agente para serviços de voz, consulte Integrar um agente habilitado para voz ao Dynamics 365 Customer Service.

Para obter uma visão geral dos serviços de voz, consulte Usar resposta de voz interativa em seus agentes.

Modalidade de fala e DTMF

Um agente habilitado para voz é diferente de um agente baseado em chat. O agente habilitado para voz inclui tópicos específicos do sistema de voz para lidar com cenários de voz. Um agente baseado em chat usa a modalidade de texto como padrão. Um agente habilitado para voz usa a modalidade Fala & DTMF. As duas modalidades não são compatíveis entre si.

Otimizar para voz permite criar agentes habilitados para voz em diferentes modalidades e garante que os recursos relacionados à fala sejam criados corretamente.

Otimizar para voz

Se você não iniciou seu agente com o Modelo de voz, deverá habilitar a opção Otimizar para voz nas Configurações do agente.

Com um agente aberto, vá para Configurações>Voz.
Selecione Otimizar para voz. A opção Usar voz como modo de criação principal também é definida por padrão.

Seu agente recebe as seguintes atualizações quando você habilita Otimizar para voz e Usar a voz como modo autoria principal:

A possibilidade de criar recursos de voz quando alternado de texto para Fala e DTMF.
Os tópicos do sistema de voz Detecção de silêncio, Fala não reconhecida e Pressionamento desconhecido do teclado de discagem são adicionados automaticamente para lidar com cenários relacionados à fala.
Aumentar a precisão com os dados do agente (ativados por padrão), o que melhora a precisão do reconhecimento de fala.
Não há alteração no fluxo do agente existente, como o tópico do Menu Principal para iniciar conversas com gatilhos DTMF mapeados.

Importante

A configuração Otimizar para voz altera somente os recursos de criação de voz, não a configuração do canal. Ative o canal de Telefonia para um agente totalmente habilitado para voz.
Além disso, definir Otimizar para voz em um agente que não foi originalmente configurado para recursos de voz significa que o agente não terá o tópico Menu Principal (versão preliminar). Você deve recriar esse tópico, se necessário.

Desabilitar a otimização para voz

Você poderá desabilitar Otimizar para voz na criação do agente se não habilitar o canal de Telefonia. Depois de desabilitar a opção Otimizar para voz, você obterá as seguintes alterações:

Nenhuma criação de agente para recursos de voz, como DTMF e barge-in.
A modalidade padrão texto é definida.
Nenhuma melhora no reconhecimento de fala, uma vez que não há reconhecimento de fala.
Nenhum tópico do sistema de voz ou tópico de DTMF global.

Observação

Alguns tópicos poderão relatar erros durante a publicação se houver referência ao tópico de DTMF desabilitado em outros tópicos.
Nenhuma alteração no fluxo do agente e na configuração do canal, pois desabilitar a otimização não desativa o canal de telefonia.
Habilitar ou desabilitar a opção Otimizar para voz só terá efeito depois que você publicar seu agente. Se o agente for habilitado ou desabilitado acidentalmente e alternar entre modalidades, você terá tempo para corrigi-lo.

Importante

Se seus canais de Telefonia estiverem habilitados, desabilitar a opção Otimizar para voz poderá prejudicar seu agente, pois todos os gatilhos DTMF serão desativados automaticamente.

Usar a voz como seu modo de criação principal

A modalidade Fala e DTMF deve ser selecionada para cada nó na criação de recursos de voz. Você pode selecionar a preferência de criação do agente como Usar a voz como modo autoria principal. Essa configuração garante que todos os campos de entrada tenham a modalidade certa. Se você já tiver habilitado Otimizar para voz, a opção Usar voz como modo de criação principal estará habilitada por padrão.

Disponibilidade de mensagem

Usar a modalidade de texto ou de fala pode afetar seu canal de forma diferente.

Modalidade de texto	Modalidade de fala	Canal de texto & fala do agente
Mensagem disponível	Mensagem vazia	Mensagem disponível
Mensagem vazia	Mensagem disponível	Mensagem não disponível

Reconhecimento de fala automático personalizado

Agentes habilitados para voz para um domínio específico, como médico ou financeiro, podem ver os usuários usarem termos financeiros ou jargões médicos. Alguns termos e jargões são difíceis para o agente habilitado para voz converter de fala em texto.

Para garantir que a entrada de fala seja reconhecida com precisão, você pode melhorar o reconhecimento de fala:

Com seu agente aberto, selecione Configurações>Voz.
Selecione Aumentar a precisão com dados do agente para habilitar as configurações de reconhecimento de fala automático personalizadas do agente.
Selecione Salvar para confirmar suas alterações.
Publique seu agente para ver as novas alterações.

Referência de opções de voz no nível do agente

A página de configurações Detalhes do agente permite definir timeout para vários recursos relacionados a voz. As configurações aplicadas nesta página se tornam o padrão para tópicos criados em seu agente.

Para fazer alterações nas opções de tempo limite no nível do agente:

Com um agente aberto, selecione Configurações>Voz.
Selecione as configurações desejadas e ajuste as configurações padrão do agente.
Selecione Salvar para confirmar suas alterações.

Configurações em nível de agente

A tabela a seguir lista cada opção e como ela se relaciona com as configurações de nível de nó.

Seção de nível de agente habilitado para voz	Configuração	Description	Valor padrão	Substituir nível de nó
DTMF	Tempo de inatividade interdígitos	Tempo máximo (milissegundos) permitido enquanto aguarda a próxima entrada de teclas DTMF. Aplica a entrada DTMF de vários dígitos somente quando os usuários não atendem ao tamanho máximo da entrada.	3000 ms	Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
DTMF	Tempo limite de terminação	Duração máxima (milissegundos) para aguardar por uma chave DTMF de término. O limite se aplica quando o usuário atinge o tamanho máximo de entrada e não pressiona a chave de término. Aplica-se somente à entrada DTMF de vários dígitos. Depois que o limite expira e a tecla DTMF de término não chegar, o agente encerrará o reconhecimento e retornará o resultado até aquele ponto. Se definido como "continuar sem esperar", o agente não aguarda a chave de encerramento. O agente retorna imediatamente após o usuário inserir o tamanho máximo.	2000 ms	Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
Detecção de silêncio	Tempo limite de detecção de silêncio	Silêncio máximo (milissegundos) permitido enquanto aguarda a entrada do usuário. O limite se aplica quando o agente não detecta nenhuma entrada do usuário. O padrão é "sem tempo limite de silêncio". O agente aguarda infinitamente pela entrada do usuário. Detecção de silêncio para voz vezes o período depois que a voz terminar de falar.	Nenhum tempo limite de silêncio	Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos Tópico do sistema (propriedades do gatilho de detecção de silêncio) para Configurar a detecção de silêncio e tempos limite
Coleta de fala	Tempo limite final de enunciado	O limite se aplica quando o usuário pausa durante ou após a fala. Se a pausa for maior do que o limite de tempo, o agente presume que o usuário terminou de falar. O valor máximo para o tempo limite de término do enunciado é de 3.000 milissegundos. Qualquer tempo acima de 3.000 ms será reduzido para 3.000 milissegundos.	1500 ms	Nó de pergunta com propriedades de voz
Coleta de fala	Tempo limite de reconhecimento de fala	Determina quanto tempo o Agente permite para a entrada do usuário quando ele começa a falar. O valor padrão é de 12.000 milissegundos (cerca de 12 segundos). Nenhum tempo limite de reconhecimento significa tempo infinito. O agente reformula a pergunta. Se não houver resposta, a voz estará além do Tempo limite de reconhecimento de fala.	12,000 ms	Nó de pergunta com propriedades de voz
Mensagens de latência	Enviar atraso de mensagem	Determina quanto tempo o agente espera antes de entregar a mensagem de latência após o início de uma solicitação de operação em segundo plano. O tempo é definido em milissegundos.	500 ms	Propriedades do nó de Ação para operação de execução prolongada
Mensagens de latência	Tempo mínimo de reprodução	A mensagem de latência será reproduzida por um período mínimo de tempo, mesmo se a operação em segundo plano for concluída enquanto a mensagem estiver sendo reproduzida. O tempo é definido em milissegundos.	5000 ms	Propriedades do modo de Ação para operação de execução prolongada
Sensibilidade à fala	Confidencialidade	Controla como o sistema equilibra a detecção de fala e ruído de fundo. Diminua a sensibilidade para ambientes barulhentos, espaços públicos e operação mãos-livres. Aumente a sensibilidade para ambientes silenciosos, usuários de fala suave ou detecção de comandos de voz. A configuração padrão é 0.5.	0.5	There não há substituições de nível de nó para este controle.

Habilitar a interrupção

A habilitação da interrupção permite que os usuários do agente interrompam seu agente. Esse recurso pode ser útil quando você não precisa que o usuário do agente ouça a mensagem inteira. Por exemplo, os chamadores podem já conhecer as opções do menu, porque as ouviram no passado. Com a interrupção, o usuário do agente pode inserir a opção que deseja, mesmo que o agente não tenha terminado de listar todas as opções.

Cenários de desabilitação de interrupção

Desative a interrupção se você tiver atualizado recentemente uma mensagem do agente ou se a mensagem de conformidade não deva ser interrompida.
Desative a interrupção para a primeira mensagem do agente para garantir que os usuários do agente estejam cientes de informações novas ou essenciais.

Especificações

O Barge-in oferece suporte a interrupções baseadas em DTMF e em voz do usuário agente.
A interrupção pode ser controlada com cada mensagem, em um lote. Posicione nós barge-in-disabled em sequência antes de cada nó em que a interrupção seja permitida. Caso contrário, "interrupção desabilitada" será tratado como uma mensagem "permitir interrupção".

Uma vez que uma fila em lote é concluída, a configuração automática de interrupção é redefinida para o próximo lote e controlada pelo sinalizador de interrupção em cada mensagem subsequente. Você poderá posicionar nós de interrupção desabilitada quando a sequência for iniciada novamente.

Dica

Se houver nós de mensagem consecutivos, seguidos por um nó de pergunta, as mensagens de voz para esses nós serão definidas como um lote. Um lote começa com um nó de mensagem e para no nó da pergunta, que aguarda a entrada do usuário.

Evite desabilitar a interrupção para mensagens longas, especialmente se você espera que os usuários agentes estejam interagindo com o agente com frequência. Se o seu usuário agente já conhece as opções de menu, permita que ele faça autoatendimento onde deseja ir.

Configurar a interrupção

Com um nó de Mensagem ou de Pergunta selecionado, defina a modalidade desejada como Fala e DTMF.
Selecione o ícone Mais (…) do nó de Gatilho e selecione Propriedades.
1. Em nós de Mensagem, o painel Enviar propriedades da atividade será aberto na lateral da tela de criação.
  
  Selecione Permitir interrupção.
2. Em nós de Pergunta, o painel Propriedades da pergunta será aberto. Selecione Voz.
  
  Nas propriedades de Voz, selecione Permitir interrupção.
Salve o tópico para confirmar suas alterações.

Configurar a detecção de silêncio e tempos limite

A detecção de silêncio permite configurar quanto tempo o agente espera pela entrada do usuário e a ação que ele toma se nenhuma entrada for recebida. A detecção de silêncio é mais útil em resposta a uma pergunta no nível do nó ou quando o Agente aguarda uma frase de gatilho para iniciar um novo tópico.

Você pode configurar os tempos limite padrão para os tópicos.

Para substituir os padrões para um nó:

Selecione o ícone Mais (…) do nó de Gatilho e selecione Propriedades.

O painel Propriedades da pergunta será aberto.

Selecione Voz e faça ajustes nas seguintes configurações:

Opção de tempo limite de detecção de silêncio	Description
Usar configuração do agente	O nó usa a configuração global para a detecção de silêncio.
Desabilitar para este nó	O Agente aguarda indefinidamente por uma resposta.
Personalizar em milissegundos	O Agente aguarda um tempo especificado antes de repetir a pergunta.

Ação de fallback

Você pode configurar alguns comportamentos como uma ação de fallback:

Quantas vezes o agente deve repetir uma pergunta
O que a mensagem de nova solicitação deve dizer
O que o agente deve fazer após um número especificado de repetições

Entrada de fala

Para a entrada de fala, você pode especificar:

Tempo limite final de enunciado: quanto tempo o agente espera depois que o usuário termina de falar
Tempo limite de reconhecimento de fala: quanto tempo o agente concede ao usuário quando ele começa a responder

Para configurar o comportamento de detecção de silêncio quando o agente espera por uma frase de gatilho, ajuste as configurações no tópico do sistema Em silêncio.

Adicionar uma mensagem de latência para operações de execução prolongada

Para operações de back-end longas, seu agente pode enviar uma mensagem aos usuários para notificá-los sobre os processos mais longos. Os agentes em um canal de mensagens também podem enviar uma mensagem de latência.

Reprodução de áudio de mensagem de latência	Mensagem de latência no chat
Continua a fazer loop até que a operação seja concluída.	Enviado somente uma vez quando a latência especificada é atingida.

No Copilot Studio, seu agente pode repetir uma mensagem após acionar um fluxo do Power Automate:

Adicionar um nó de Ação que aciona um fluxo.
Selecione o ícone Mais (…) do nó de Gatilho e selecione Propriedades. O painel Propriedades da ação será aberto.
Selecione Enviar uma mensagem.
Na seção Mensagem, insira o que você deseja que o agente diga. Você pode usar SSML para modificar o som da mensagem. O Agente repete a mensagem até que o fluxo seja concluído.

Você pode ajustar quanto tempo o agente deve esperar antes de repetir a mensagem na seção Atraso. Você pode definir um tempo mínimo de espera, mesmo que o fluxo seja concluído.

Configurar o encerramento da chamada

Para configurar seu agente para encerrar a chamada e desligar, adicione um novo nó (+) e selecione Gerenciamento de tópicos>Encerrar conversa.

Captura de tela de um novo menu de nó com Gerenciamento de tópicos e Encerrar a conversa realçados.

Formatar síntese de fala com SSML

Você pode usar SSML (Speech Synthesis Markup Language) para alterar o som do agente ao ler mensagens em voz alta. Por exemplo, você pode alterar o tom ou a frequência das palavras faladas, a velocidade e o volume.

SSML usa marcas para delimitar o texto que você deseja modificar, semelhante ao HTML. Você pode usar as seguintes marcas no Copilot Studio:

Marca SSML	Descrição	Link para a documentação do serviço de fala
`<audio src="_URL to an audio file_"/>`	Adicione a URL a um arquivo de áudio na marca. O arquivo deve ser acessível para o usuário do agente.	Adicionar áudio gravado
`<break />`	Insira pausas ou intervalos entre as palavras. Insira opções de intervalo na marca.	Adicionar um intervalo
`<emphasis>`Texto que você deseja modificar`</emphasis>`	Adicione níveis de estresse às palavras ou frases. Adicione opções de ênfase na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar.	Ajustar opções de ênfase
`<prosody>`Texto que você deseja modificar`</prosody>`	Especifique as alterações de tom, contorno, intervalo, taxa e volume. Adicione opções de prosódia na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar.	Ajustar opções de prosódia
`<lang xml:lang="xx-XX">`Texto que você deseja modificar`</lang>`	Ajuste o idioma falado dentro da mesma mensagem ao usar uma voz neural multilíngue.	Ajustar os idiomas falados

Captura de tela de uma mensagem de fala com tags SSML adicionadas.

Encontrar e usar uma marca

SSML usa marcas para delimitar o texto que você deseja modificar, como o HTML.

Você pode usar as seguintes marcas no Copilot Studio:

Com um nó de Mensagem ou de Pergunta selecionado, altere o modo para Fala e DTMF.
Selecione o menu Marcas SSML e selecione uma marca.

A caixa de mensagem será preenchida com a marca. Se já tiver texto na caixa de mensagem, o código da marca será acrescentado ao final da mensagem.
Envolva o texto que deseja modificar com as marcas de abertura e fechamento. Você pode combinar várias marcas e personalizar partes individuais da mensagem com marcas individuais.

Dica

Você também pode inserir manualmente as marcas SSML que não aparecem no menu auxiliar. Para saber mais sobre outras marcas disponíveis, consulte Aprimorar a síntese com Speech Synthesis Markup Language.

Transferir uma chamada para um representante ou número de telefone externo

Você pode fazer com que o agente transfira a chamada para um número de telefone externo. O Copilot Studio oferece suporte à transferência cega para um número de telefone PSTN e para o número de roteamento direto.

Para transferir para um número de telefone externo:

No tópico que você deseja modificar, adicione um novo nó (+). No menu do nó, selecione Gerenciamento de tópicos e selecione Transferir conversa.
Em Tipo de transferência, selecione Transferência para número de telefone externo e insira o número de telefone.
(Opcionalmente) adicione um cabeçalho SIP UUI ao telefonema.

Esse cabeçalho é uma cadeia de pares key=value, sem espaços ou caracteres especiais, exibida para leitura por sistemas externos.
1. Selecione o ícone Mais (…) do nó de Gatilho e selecione Propriedades. O painel propriedades de Transferir conversa será aberto.
2. Em cabeçalho SIP UUI, insira as informações que deseja enviar com a transferência de chamada. Não há suporte a variáveis durante a transferência para um número de telefone externo.
Cuidado

Somente os primeiros 128 caracteres na cadeia de caracteres são enviados.

O cabeçalho aceita somente números, letras, sinais de igualdade (=) e ponto e vírgula (;). Não há suporte a todos os outros caracteres, incluindo espaços, chaves e colchetes, ou fórmulas, e podem causar uma falha na transferência.

Dica

Inclua um + no número de telefone para o código do país correspondente.

A saída de transferência com SIP UUI para o número de telefone de destino deve usar roteamento direto. Os números de telefone da PSTN (rede telefônica pública comutada) não oferecem suporte a transferências de cabeçalho SIP UUI.

Para transferir para um representante, consulte Gatilhos explícitos.

Usar variáveis de voz

O Copilot Studio oferece suporte ao preenchimento de variáveis. Você pode usar variáveis predefinidas ou criar variáveis personalizadas.

Observação

Para obter mais informações sobre como usar e criar variáveis no Copilot Studio, consulte Trabalhar com variáveis.
Para obter informações sobre atividades adicionais e variáveis de conversa disponíveis para agentes habilitados para voz, consulte Variáveis para agentes habilitados para voz.

Um agente habilitado para voz no Copilot Studio oferece suporte a variáveis de contexto. Essas variáveis ajudam você a integrar as suas conversas de agente com o Dynamics 365 Customer Service ao transferir uma chamada.

Para obter mais informações sobre variáveis de contexto no Dynamics 365 Customer Service, consulte Variáveis de contexto para bots do Copilot Studio.

Esta integração oferece suporte a estes cenários com as seguintes variáveis quando você transfere:

Variável	Type	Description
`System.Activity.From.Name`	String	O ID do chamador do usuário do agente
`System.Activity.Recipient.Name`	String	O número usado para ligar ou conectar-se ao agente
`System.Conversation.SipUuiHeaderValue`	String	Valor do cabeçalho SIP ao transferir por meio de um número de telefone de roteamento direto
`System.Activity.UserInputType`	String	Se o usuário do agente usou DTMF ou fala na conversa
`System.Activity.InputDTMFKey`	String	A entrada DTMF bruta do usuário do agente
`System.Conversation.OnlyAllowDTMF`	Boolean	O Serviço de Voz ignora a entrada de fala quando definida como verdadeiro
`System.Activity.SpeechRecognition.Confidence`	Número	O valor de confiança (entre 0 e 1) do último evento de reconhecimento de fala
`System.Activity.SpeechRecognition.MinimalFormattedText`	Cadeia de caracteres	Resultados de reconhecimento de fala (como texto bruto) antes Copilot Studio de aplicados seu modelo dedicado de reconhecimento de linguagem natural

Observação

Um agente com frases de gatilho grandes e dimensionamento de entidade leva mais tempo para ser publicado.
Se vários usuários publicarem o mesmo agente ao mesmo tempo, sua ação de publicação será bloqueada. Você precisará republicar o agente depois que os outros terminarem suas edições existentes do agente.

Para saber mais sobre os fundamentos da publicação, consulte Principais conceitos - Publicar e implantar seu agente.

Partilhar via

Configurar recursos de voz

Modalidade de fala e DTMF

Otimizar para voz

Desabilitar a otimização para voz

Usar a voz como seu modo de criação principal

Disponibilidade de mensagem

Reconhecimento de fala automático personalizado

Referência de opções de voz no nível do agente

Configurações em nível de agente

Habilitar a interrupção

Cenários de desabilitação de interrupção

Especificações

Configurar a interrupção

Configurar a detecção de silêncio e tempos limite

Ação de fallback

Entrada de fala

Adicionar uma mensagem de latência para operações de execução prolongada

Configurar o encerramento da chamada

Formatar síntese de fala com SSML

Encontrar e usar uma marca

Transferir uma chamada para um representante ou número de telefone externo

Usar variáveis de voz

Comentários

Recursos adicionais