Compartilhar via


Configurar recursos de voz

Este artigo descreve os recursos disponíveis em Copilot Studio para voz interativa resposta com Dynamics 365 SAC.

Para preparar seu agente para serviços de voz, consulte Integrar um agente habilitado para voz com Dynamics 365 SAC.

Para uma visão geral dos serviços de voz, consulte Usar voz interativa resposta em seus agentes.

Modalidade de fala e DTMF

Um agente ativado por voz é diferente de um agente baseado em bate-papo. O agente habilitado para voz inclui tópicos específicos do sistema de voz para lidar com cenários de voz. Um agente baseado em bate-papo usa a modalidade de texto como padrão. Um agente habilitado para voz usa a modalidade Fala e DTMF. As duas modalidades não são compatíveis entre si.

Otimizar para voz permite que você autor agentes habilitados para voz em diferentes modalidades e garante que os recursos relacionados à fala sejam criados corretamente.

Otimizar para voz

Se você não iniciou seu agente com o Modelo de voz, você deve habilitar a opção Otimizar para voz nas Configurações do agente.

  1. Com um agente aberto, vá para Configurações>Voz.

  2. Selecione Otimizar para voz. A opção Usar voz como modo de criação principal também é definida por padrão.

Seu agente recebe as seguintes atualizações quando você habilita as opções Otimizar para voz e Usar voz como modo Autoria principal :

  • A possibilidade de criar recursos de voz quando alternado de texto para Fala e DTMF.
  • Os tópicos do sistema de voz Detecção de silêncio, Fala não reconhecida e Pressionamento desconhecido do teclado de discagem são adicionados automaticamente para lidar com cenários relacionados à fala.
  • Aumente a precisão com dados agente (ativado por padrão), o que melhora a precisão do reconhecimento de fala.
  • There não faz nenhuma alteração no fluxo agente existente, como o Menu Principal tópico para iniciar conversas com gatilhos DTMF mapeados.

Importante

  • A configuração Otimizar para voz altera somente os recursos de criação de voz, não a configuração do canal. Ligue o canal Telefonia para um agente totalmente habilitado por voz.
  • Além disso, definir Otimizar para voz em um agente que não foi originalmente configurado para recursos de voz significa que o agente não terá o Menu Principal (versão preliminar) tópico. Você deve recriar esse tópico, se necessário.

Desabilitar a otimização para voz

Você pode desabilitar Otimizar para voz na criação de agente se não habilitar o canal Telefonia. Depois de desabilitar a opção Otimizar para voz, você obterá as seguintes alterações:

  • Nenhuma criação de agente para recursos de voz, como DTMF e barge-in.
  • A modalidade padrão texto é definida.
  • Nenhuma melhora no reconhecimento de fala, uma vez que não há reconhecimento de fala.
  • Nenhum tópico do sistema de voz ou tópico de DTMF global.

    Observação

    Alguns tópicos poderão relatar erros durante a publicação se houver referência ao tópico de DTMF desabilitado em outros tópicos.

  • Nenhuma alteração no fluxo e na configuração do canal agente, pois desabilitar a otimização não desativa o canal de telefonia.
  • Habilitar ou desabilitar a opção otimizar para voz não terá efeito até que você publique seu agente. Se o agente for ativado ou desativado acidentalmente e alternar entre modalidades, você terá tempo para consertar.

Importante

Se seus canais de telefonia estiverem habilitados, desabilitar Otimizar para voz pode quebrar seu agente, já que todos os gatilhos DTMF são desabilitados automaticamente.

Usar a voz como seu modo de criação principal

A modalidade Fala e DTMF deve ser selecionada para cada nó na criação de recursos de voz. Você pode Select a preferência de criação agente como usar voz como primária modo Autoria. Essa configuração garante que todos os campos de entrada tenham a modalidade certa. Se você já tiver habilitado Otimizar para voz, a opção Usar voz como modo de criação principal estará habilitada por padrão.

Disponibilidade de mensagem

Usar a modalidade de texto ou de fala pode afetar seu canal de forma diferente.

Modalidade de texto Modalidade de fala Agente canal de texto e fala
Mensagem disponível Mensagem vazia Mensagem disponível
Mensagem vazia Mensagem disponível Mensagem não disponível

Reconhecimento de fala automático personalizado

Agentes habilitados para voz para um domínio específico, como médico ou financeiro, podem ver os usuários usarem termos financeiros ou jargões médicos. Alguns termos e jargões são difíceis de converter de fala para texto para o agente habilitado por voz.

Para garantir que a entrada de fala seja reconhecida com precisão, você pode melhorar o reconhecimento de fala:

  1. Com seu agente aberto, Select Configurações>Voz.

  2. Select Aumente a precisão com os dados do agente para habilitar as configurações padrão personalizadas de reconhecimento de fala automático do agente.

  3. Selecione Salvar para confirmar suas alterações.

  4. Publique seu agente para ver as novas mudanças.

Referência de opções de voz em nível de agente

A página de configurações de detalhes do agente permite que você configure tempos limite para vários recursos relacionados à voz. As configurações aplicadas nesta página se tornam o padrão para tópicos criados em seu agente.

Para fazer alterações nas opções de tempo limite no nível do agente:

  1. Com um agente aberto, Select Configurações>Voz.

    Captura de tela das configurações de voz para um agente habilitado para voz.

  2. Select as configurações desejadas e ajuste as configurações padrão do agente.

  3. Selecione Salvar para confirmar suas alterações.

Configurações de nível de agente

A tabela a seguir lista cada opção e como ela se relaciona com as configurações de nível de nó.

Seção de nível de agente habilitada por voz Configuração Description Valor padrão Substituir nível de nó
DTMF Tempo de inatividade interdígitos Tempo máximo (milissegundos) permitido enquanto aguarda a próxima entrada de teclas DTMF. Aplica a entrada DTMF de vários dígitos somente quando os usuários não atendem ao tamanho máximo da entrada. 3000 ms Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
DTMF Tempo limite de terminação Duração máxima (milissegundos) para aguardar por uma chave DTMF de término. O limite se aplica quando o usuário atinge o tamanho máximo de entrada e não pressiona a chave de término. Aplica-se somente à entrada DTMF de vários dígitos.

Após o tempo limite expirar e a chave DTMF de encerramento não chegar, agente encerra o reconhecimento e retorna o resultado até aquele ponto.

Se definido como "continuar sem esperar", o agente não aguarda a chave de término. Agente retorna imediatamente após o usuário inserir o comprimento máximo.
2000 ms Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos
Detecção de silêncio Tempo limite de detecção de silêncio Silêncio máximo (milissegundos) permitido enquanto aguarda a entrada do usuário. O limite se aplica quando o agente não detecta nenhuma entrada do usuário. O padrão é "sem tempo limite de silêncio". agente aguarda infinitamente a entrada do usuário.

Detecção de silêncio para voz vezes o período depois que a voz terminar de falar.
Nenhum tempo limite de silêncio Nó de pergunta com propriedades de voz para entrada DTMF de vários dígitos

Tópico do sistema (propriedades de detecção de silêncio Gatilho) para Configurar detecção de silêncio e tempos limite
Coleta de fala Tempo limite final de enunciado O limite se aplica quando o usuário pausa durante ou após a fala. Se a pausa for maior que o tempo limite, agente presume que o usuário terminou de falar.

O valor máximo para o tempo limite de término do enunciado é de 3.000 milissegundos. Qualquer tempo acima de 3.000 ms será reduzido para 3.000 milissegundos.
1500 ms Nó de pergunta com propriedades de voz
Coleta de fala Tempo limite de reconhecimento de fala Determina quanto tempo o agente permite para a entrada de dados do usuário depois que ele começa a falar. O valor padrão é de 12.000 milissegundos (cerca de 12 segundos). Nenhum tempo limite de reconhecimento significa tempo infinito. Agente repete a pergunta. Se não houver resposta, a voz estará além do Tempo limite de reconhecimento de fala. 12,000 ms Nó de pergunta com propriedades de voz
Mensagens de latência Enviar atraso de mensagem Determina quanto tempo o agente espera antes de entregar a mensagem de latência após o início de uma solicitação de operação em segundo plano. O tempo é definido em milissegundos. 500 ms Propriedades do nó de Ação para operação de execução prolongada
Mensagens de latência Tempo mínimo de reprodução A mensagem de latência será reproduzida por um período mínimo de tempo, mesmo se a operação em segundo plano for concluída enquanto a mensagem estiver sendo reproduzida. O tempo é definido em milissegundos. 5000 ms Propriedades do modo de Ação para operação de execução prolongada
Sensibilidade à fala Confidencialidade Controla como o sistema equilibra a detecção de fala e ruído de fundo. Diminua a sensibilidade para ambientes barulhentos, espaços públicos e operação mãos-livres. Aumente a sensibilidade para ambientes silenciosos, usuários de fala suave ou detecção de comandos de voz. A configuração padrão é 0.5. 0.5 There não há substituições de nível de nó para este controle.

Habilitar a interrupção

Habilitar a interrupção permite que seus usuários agente interrompam seu agente. Esse recurso pode ser útil quando você não precisa que o usuário agente ouça a mensagem inteira. Por exemplo, os chamadores podem já conhecer as opções do menu, porque as ouviram no passado. Com o barge-in, o usuário agente pode inserir a opção desejada, mesmo que o agente não tenha terminado de listar todas as opções.

Cenários de desabilitação de interrupção

  • Desabilite a interrupção se você atualizou recentemente uma mensagem agente ou se a mensagem de conformidade não deve ser interrompida.
  • Desabilite a interrupção na primeira mensagem agente para garantir que os usuários do agente estejam cientes de informações novas ou essenciais.

Especificações

  • O Barge-in suporta interrupções baseadas em DTMF e voz do usuário agente.

  • A interrupção pode ser controlada com cada mensagem, em um lote. Posicione nós barge-in-disabled em sequência antes de cada nó em que a interrupção seja permitida. Caso contrário, "interrupção desabilitada" será tratado como uma mensagem "permitir interrupção".

    Captura de tela dos posicionamentos de interrupção e de interrupção desabilitada nos nós de mensagem.

    Uma vez que uma fila em lote é concluída, a configuração automática de interrupção é redefinida para o próximo lote e controlada pelo sinalizador de interrupção em cada mensagem subsequente. Você poderá posicionar nós de interrupção desabilitada quando a sequência for iniciada novamente.

Dica

Se houver nós de mensagem consecutivos, seguidos por um nó de pergunta, as mensagens de voz para esses nós serão definidas como um lote. Um lote começa com um nó de mensagem e para no nó de pergunta, que está aguardando a entrada do usuário.

Evite desabilitar a interrupção para mensagens longas, especialmente se você espera que usuários do agente interajam com o agente com frequência. Se o seu usuário agente já conhece as opções do menu, deixe que ele faça o autoatendimento onde quiser.

Configurar a interrupção

  1. Com um nó de Mensagem ou de Pergunta selecionado, defina a modalidade desejada como Fala e DTMF.

  2. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades.

    1. Em nós de Mensagem, o painel Enviar propriedades da atividade será aberto na lateral da tela de criação.

      Selecione Permitir interrupção.

    2. Em nós de Pergunta, o painel Propriedades da pergunta será aberto. Selecione Voz.

      Nas propriedades de Voz, selecione Permitir interrupção.

  3. Salve o tópico para confirmar suas alterações.

Configurar a detecção de silêncio e tempos limite

A detecção de silêncio permite que você configure quanto tempo o agente aguarda a entrada do usuário e a ação que ele toma se nenhuma entrada for recebida. A detecção de silêncio é mais útil em resposta para uma pergunta no nível do nó ou quando o agente espera que um frase de gatilho inicie um novo tópico.

Você pode configurar os tempos limite padrão para tópicos.

Para substituir os padrões para um nó:

  1. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades.

    O painel Propriedades da pergunta será aberto.

  2. Selecione Voz e faça ajustes nas seguintes configurações:

    Opção de tempo limite de detecção de silêncio Description
    Use a configuração agente O Node usa a configuração global para detecção de silêncio.
    Desabilitar para este nó O agente aguarda indefinidamente por um resposta.
    Personalizar em milissegundos O agente aguarda um tempo especificado antes de repetir a pergunta.

Ação de fallback

Você pode configurar alguns comportamentos como uma ação de fallback:

  • Quantas vezes o agente deve repetir uma pergunta
  • O que a mensagem de nova solicitação deve dizer
  • O que o agente deve fazer após um número especificado de repetições

Entrada de fala

Para a entrada de fala, você pode especificar:

  • Tempo limite de término da declaração: Quanto tempo o agente espera após o usuário terminar de falar
  • Tempo limite de reconhecimento de fala: Quanto tempo o agente dá ao usuário depois que ele começa a responder

Para configurar o comportamento de detecção de silêncio quando seu agente aguarda um frase de gatilho, ajuste as configurações em Sobre silêncio tópico do sistema.

Adicionar uma mensagem de latência para operações de execução prolongada

Para operações longas de backend, seu agente pode enviar uma mensagem aos usuários para notificá-los sobre os processos mais longos. Agentes em um canal de mensagens também podem enviar uma mensagem de latência.

Reprodução de áudio de mensagem de latência Mensagem de latência no chat
Continua a fazer loop até que a operação seja concluída. Enviado somente uma vez quando a latência especificada é atingida.

Em Copilot Studio, seu agente pode repetir uma mensagem após acionar um Power Automate fluxo:

  1. Adicione um nó de ação que acione um fluxo.

  2. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades. O painel Propriedades da ação será aberto.

  3. Selecione Enviar uma mensagem.

  4. Na seção Mensagem , digite o que você quer que o agente diga. Você pode usar SSML para modificar o som da mensagem. O agente repete a mensagem até que o fluxo seja concluído.

Você pode ajustar quanto tempo o agente deve esperar antes de repetir a mensagem na seção Atraso . Você pode definir um tempo mínimo de espera, mesmo que o fluxo seja concluído.

Configurar o encerramento da chamada

Para configurar seu agente para encerrar a chamada e desligar, adicione um novo nó (+) e então Select tópico management>Encerrar conversa.

Captura de tela de um novo menu de nó com Gerenciamento de tópicos e Encerrar a conversa realçados.

Formatar síntese de fala com SSML

Você pode usar a linguagem de marcação de síntese de fala (SSML) para alterar o som do agente quando ele lê mensagens em voz alta. Por exemplo, você pode alterar o tom ou a frequência das palavras faladas, a velocidade e o volume.

SSML usa marcas para delimitar o texto que você deseja modificar, semelhante ao HTML. Você pode usar as seguintes marcas no Copilot Studio:

Marca SSML Descrição Link para a documentação do serviço de fala
<audio src="_URL to an audio file_"/> Adicione a URL a um arquivo de áudio na marca. O arquivo deve ser acessível pelo usuário agente. Adicionar áudio gravado
<break /> Insira pausas ou intervalos entre as palavras. Insira opções de intervalo na marca. Adicionar um intervalo
<emphasis>Texto que você deseja modificar</emphasis> Adicione níveis de estresse às palavras ou frases. Adicione opções de ênfase na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar. Ajustar opções de ênfase
<prosody>Texto que você deseja modificar</prosody> Especifique as alterações de tom, contorno, intervalo, taxa e volume. Adicione opções de prosódia na marca de abertura. Adicione a marca de fechamento após o texto que você deseja modificar. Ajustar opções de prosódia
<lang xml:lang="xx-XX">Texto que você deseja modificar</lang> Ajuste o idioma falado na mesma mensagem ao usar uma voz neural multilíngue. Ajustar idiomas falados

Captura de tela de uma mensagem de fala com tags SSML adicionadas.

Encontrar e usar uma marca

SSML usa marcas para delimitar o texto que você deseja modificar, como o HTML.

Você pode usar as seguintes marcas no Copilot Studio:

  1. Com um nó de Mensagem ou de Pergunta selecionado, altere o modo para Fala e DTMF.

  2. Selecione o menu Marcas SSML e selecione uma marca.

    A caixa de mensagem será preenchida com a marca. Se já tiver texto na caixa de mensagem, o código da marca será acrescentado ao final da mensagem.

  3. Envolva o texto que deseja modificar com as marcas de abertura e fechamento. Você pode combinar várias marcas e personalizar partes individuais da mensagem com marcas individuais.

Dica

Você também pode inserir manualmente as marcas SSML que não aparecem no menu auxiliar. Para saber mais sobre outras marcas disponíveis, consulte Aprimorar a síntese com Speech Synthesis Markup Language.

Transferir uma chamada para um representante ou número de telefone externo

Você pode fazer com que o agente transfira a chamada para um número de telefone externo. O Copilot Studio oferece suporte à transferência cega para um número de telefone PSTN e para o número de roteamento direto.

Para transferir para um número de telefone externo:

  1. No tópico que você deseja modificar, adicione um novo nó (+). No menu do nó, selecione Gerenciamento de tópicos e selecione Transferir conversa.

  2. Em Tipo de transferência, selecione Transferência para número de telefone externo e insira o número de telefone.

  3. (Opcionalmente) adicione um cabeçalho SIP UUI ao telefonema.

    Esse cabeçalho é uma cadeia de pares key=value, sem espaços ou caracteres especiais, exibida para leitura por sistemas externos.

    1. Selecione o ícone Mais () do nó de Gatilho e selecione Propriedades. O painel propriedades de Transferir conversa será aberto.

    2. Em cabeçalho SIP UUI, insira as informações que deseja enviar com a transferência de chamada. Não há suporte a variáveis durante a transferência para um número de telefone externo.

    Cuidado

    Somente os primeiros 128 caracteres na cadeia de caracteres são enviados.

    O cabeçalho aceita somente números, letras, sinais de igualdade (=) e ponto e vírgula (;). Não há suporte a todos os outros caracteres, incluindo espaços, chaves e colchetes, ou fórmulas, e podem causar uma falha na transferência.

Dica

Inclua um + no número de telefone para o código do país correspondente.

A saída de transferência com SIP UUI para o número de telefone de destino deve usar roteamento direto. Os números de telefone da PSTN (rede telefônica pública comutada) não oferecem suporte a transferências de cabeçalho SIP UUI.

Para transferir para um representante, consulte Gatilhos explícitos.

Usar variáveis de voz

O Copilot Studio oferece suporte ao preenchimento de variáveis. Você pode usar variáveis predefinidas ou criar variáveis personalizadas.

Observação

Um agente habilitado por voz Copilot Studio suporta variáveis de contexto. Essas variáveis ajudam você a integrar suas conversas agente com Dynamics 365 SAC ao transferir uma chamada.

Para obter mais informações sobre variáveis de contexto em Dynamics 365 SAC,, consulte Variáveis de contexto para Copilot Studio bots.

Esta integração oferece suporte a estes cenários com as seguintes variáveis quando você transfere:

Variável Type Description
System.Activity.From.Name String O identificador de chamadas do usuário agente
System.Activity.Recipient.Name String O número usado para ligar ou se conectar ao agente
System.Conversation.SipUuiHeaderValue String Valor do cabeçalho SIP ao transferir por meio de um número de telefone de roteamento direto
System.Activity.UserInputType String Se o usuário agente usou DTMF ou fala na conversa
System.Activity.InputDTMFKey String Entrada DTMF bruta do usuário agente
System.Conversation.OnlyAllowDTMF Boolean O Serviço de Voz ignora a entrada de fala quando definida como verdadeiro
System.Activity.SpeechRecognition.Confidence Número O valor de confiança (entre 0 e 1) do último evento de reconhecimento de fala
System.Activity.SpeechRecognition.MinimalFormattedText Cadeia de caracteres Resultados de reconhecimento de fala (como texto bruto) antes Copilot Studio de aplicados seu modelo dedicado de reconhecimento de linguagem natural

Observação

  • Um agente com frases Gatilho grandes e dimensionamento de entidade leva mais tempo para ser publicado.
  • Se vários usuários publicarem o mesmo agente ao mesmo tempo, sua ação de publicação será bloqueada. Você precisa republicar o agente depois que outros terminarem suas edições existentes no agente.

Para saber mais sobre os fundamentos da publicação, consulte Conceitos-chave - Publique e implante seu agente.