Esclarecer e limitar opções

Artigo
06/13/2023

[O Microsoft Agent foi preterido a partir do Windows 7 e pode estar indisponível nas versões subsequentes do Windows.]

O reconhecimento de fala se torna mais bem-sucedido quando o usuário aprende o intervalo de gramática apropriada. Ele também funciona melhor quando o intervalo de opções é limitado. Quanto menos a entrada for aberta, melhor o mecanismo de fala poderá analisar a entrada de informações acústicas.

O Microsoft Agent inclui várias disposições internas que aumentam o sucesso da entrada de fala. A primeira é a Janela comandos exibida quando o usuário diz "Abrir Janela comandos" ou "O que posso dizer?" (ou quando o usuário escolhe Abrir Janela de Comandos no menu pop-up do caractere). A Janela comando serve como um guia visual para a gramática ativa do mecanismo de fala. Ele também reduz erros de reconhecimento ativando apenas a gramática de fala do aplicativo ativo de entrada e os comandos globais do Microsoft Agent. Portanto, a gramática ativa do mecanismo de fala se aplica ao contexto imediato. Para obter mais informações sobre a janela Comandos, consulte Visão geral da Interface de Programação do Microsoft Agent.

Ao criar comandos habilitados para voz do Microsoft Agent, você pode criar o texto legenda que aparece na Janela comandos, bem como seu texto de voz (gramática), as palavras que o mecanismo deve usar para corresponder a esse comando. Sempre tente tornar seus comandos o mais distintos possível. Quanto maior a diferença entre a redação de comandos, especialmente para o texto de voz, maior a probabilidade de o mecanismo de fala ser capaz de discriminar os comandos falados e fornecer uma correspondência precisa. Evite também comandos de palavra única ou muito curtos. Em geral, mais informações acústicas em um enunciado falado dão ao mecanismo uma melhor chance de fazer uma correspondência precisa.

Ao definir o texto de voz para um comando, forneça uma variedade razoável de palavras. As solicitações que significam a mesma coisa podem ser formuladas de maneira muito diferente, conforme ilustrado no exemplo a seguir:

Adicione um pouco de pepperoni.

Eu gostaria de um pouco de pepperoni.

Você poderia adicionar um pouco de pepperoni?

Pepperoni, por favor.

O Microsoft Agent permite que você especifique facilmente alternativas ou palavras opcionais para a gramática de voz para seu aplicativo. Você inclui palavras ou frases alternativas entre parênteses, separadas por um caractere de barra vertical. Você pode definir palavras opcionais colocando-as entre caracteres de colchete. Você também pode aninhar alternativas ou palavras opcionais. Além disso, você também pode usar reticências (...) no texto de voz como um espaço reservado para qualquer palavra. No entanto, usar reticências com muita frequência pode dificultar a distinção entre comandos de voz diferentes pelo mecanismo. De qualquer forma, sempre verifique se o texto de voz inclui pelo menos uma palavra distinta para cada comando que não é opcional. Normalmente, isso deve corresponder a uma palavra ou palavras no texto legenda que você define que aparece na janela Comandos.

Embora você possa incluir símbolos, pontuação ou abreviações no texto legenda, evite-os no texto de voz. Muitos mecanismos de reconhecimento de fala não podem manipular símbolos e abreviações ou podem usá-los para definir parâmetros de entrada especiais. Além disso, soletrar números. Isso também garante um suporte de reconhecimento mais confiável.

Você também pode usar prompts de diretiva para evitar entradas abertas. Os prompts de diretiva referenciam implicitamente as opções ou as declaram explicitamente, conforme mostrado nos seguintes exemplos:

Prompt	Avaliação
O que você quer?	Muito geral, uma solicitação aberta
Escolha um estilo de pizza ou ingrediente.	Bom, se as opções estiverem visíveis, mas ainda assim gerais
Diga "Havaiano", "Chicago" ou "The Works".	Melhor, uma diretiva explícita com opções específicas

Isso orienta o usuário a emitir um comando válido. Ao sugerir as palavras ou a frase, é mais provável que você obtenha a redação esperada em troca. Para evitar repetição não natural, altere a redação ou reduza o original para a apresentação subsequente à medida que o usuário se torna mais experiente com o estilo de entrada. Prompts de diretiva também podem ser usados em situações em que o usuário falha ao emitir um comando dentro de um tempo prescrito ou falha ao fornecer um comando esperado. Os prompts de diretiva podem ser fornecidos usando a saída de fala, suas interfaces de aplicativo ou ambos. A chave está ajudando o usuário a conhecer as opções apropriadas.

A redação influencia o sucesso de um prompt. Por exemplo, o prompt "Deseja pedir sua pizza?" pode gerar uma resposta "Sim" ou "Não", mas também pode gerar uma solicitação de pedido. Defina prompts para serem não ambíguos ou estar preparados para aceitar uma variedade maior de respostas possíveis. Além disso, observe a tendência de as pessoas imitarem palavras e construções que ouvem. Isso geralmente pode ser usado para ajudar a evocar uma resposta apropriada, como no exemplo a seguir:

Usuário: Mostre-me todas as mensagens do Paul.

Caractere:

É mais provável que isso obtenha o nome completo de uma das partes com o possível prefixo de "Quero dizer" ou "eu quis dizer".

Como os caracteres do Microsoft Agent operam dentro da interface visual do Microsoft Windows, você pode usar elementos visuais para fornecer prompts de diretiva para entrada de fala. Por exemplo, você pode fazer o gesto de caractere em uma lista de opções e solicitar que o usuário selecione uma ou exibir opções em uma caixa de diálogo ou janela de mensagem. Isso tem dois benefícios: sugere explicitamente as palavras que você deseja que o usuário fale e fornece uma maneira alternativa para o usuário responder.

Você também pode usar outros modos de interação para sugerir sutilmente aos usuários a gramática de fala apropriada, conforme mostrado no exemplo a seguir:

Usuário: (Clica na opção de pizza no estilo havaiano com o mouse)

Caractere: Pizza havaiana.

Usuário: (Clica na opção Queijo Extra com o mouse)

Caractere: Adicione "Queijo Extra".

Outro fator importante na entrada de fala bem-sucedida é a indicação do usuário quando o mecanismo está pronto para entrada, pois muitos mecanismos de fala permitem apenas um único enunciado por vez. O Microsoft Agent dá suporte a isso de duas maneiras. Primeiro, se o cartão de som der suporte a MIDI, o Microsoft Agent gerará um breve tom para sinalizar quando o canal de entrada de fala estiver disponível. Em segundo lugar, a janela Dica de Escuta exibe um prompt de texto apropriado quando o caractere (mecanismo de fala) está escutando a entrada. Além disso, essa dica exibe o que o mecanismo ouviu.

Compartilhar via

Esclarecer e limitar opções

Comentários

Recursos adicionais