Reconhecimento de fala

Artigo
06/12/2023

[O Microsoft Agent foi preterido a partir do Windows 7 e pode estar indisponível nas versões subsequentes do Windows.]

O reconhecimento de fala fornece uma interface muito natural e familiar para interagir com caracteres. No entanto, a entrada de fala também apresenta muitos desafios. Atualmente, os mecanismos de fala operam sem partes substanciais do repertório de comunicação de fala humana, como gestos, entonação e expressões faciais. Além disso, a fala natural normalmente não é limitada. É fácil para o locutor exceder o vocabulário atual, ou gramática, do mecanismo. Da mesma forma, a redação ou a ordem das palavras podem variar para qualquer solicitação ou resposta determinada. Além disso, os mecanismos de reconhecimento de fala geralmente devem lidar com grandes variações no ambiente do locutor. Por exemplo, o ruído de plano de fundo, a qualidade do microfone e a localização podem afetar a qualidade da entrada. Da mesma forma, pronúncias de alto-falantes diferentes ou até mesmo variações do mesmo alto-falante, como quando o alto-falante está com frio, tornam um desafio converter os dados acústicos em compreensão representacional. Por fim, os mecanismos de fala também devem lidar com palavras ou frases semelhantes em uma linguagem, como "novo", "sabia" e "gnu", ou "destruir uma praia agradável" e "reconhecer fala".

A fala nem sempre é a melhor forma de entrada para uma tarefa. Devido à natureza de controle por turnos da fala, muitas vezes pode ser mais lenta do que outras formas de entrada. Assim como o teclado, a entrada de fala é uma interface ruim para apontar, a menos que algum tipo de representação mnemônica seja fornecido. Portanto, sempre considere se a fala é a entrada mais apropriada para uma tarefa. É melhor evitar o uso da fala como a interface exclusiva para qualquer tarefa. Forneça outras maneiras de acessar qualquer funcionalidade básica usando métodos como o mouse ou o teclado. Além disso, aproveite a natureza multimoda do uso de fala na interface visual combinando a entrada de fala com informações visuais que ajudam a especificar o contexto e as opções.

Por fim, o uso bem-sucedido da entrada de fala deve-se apenas em parte à qualidade da tecnologia. Até mesmo o reconhecimento humano, que excede qualquer tecnologia de reconhecimento atual, às vezes falha. No entanto, na comunicação humana, usamos estratégias que melhoram a probabilidade de sucesso e que fornecem recuperação de erros quando algo dá errado. Portanto, a eficácia da entrada de fala também depende da qualidade da interface do usuário que a apresenta.

Estudar modelos humanos de interação de fala pode ser útil ao projetar interfaces de fala mais naturais. Registrar diálogos reais de fala humana para cenários específicos pode ajudá-lo a entender melhor os constructos e padrões usados, bem como formas eficazes de comentários e recuperação de erros. Ele pode ajudar a determinar o vocabulário apropriado a ser usado (para entrada e saída). É melhor criar uma interface de fala com base em como as pessoas realmente falam do que simplesmente derive-a da interface gráfica na qual ela opera.

Observe que o Microsoft Agent usa a SAPI (API de Fala da Microsoft) para dar suporte ao reconhecimento de fala. Isso permite que o Microsoft Agent seja usado com uma variedade de mecanismos compatíveis. Embora o Microsoft Agent especifique determinadas interfaces básicas, os requisitos de desempenho e a qualidade de um mecanismo podem variar.

A fala não é o único meio de dar suporte a interfaces de conversa. Você também pode usar o processamento em linguagem natural da entrada do teclado no lugar de ou além da fala. Nessas situações, você ainda pode aplicar diretrizes para entrada de fala.

Compartilhar via

Reconhecimento de fala

Comentários

Recursos adicionais