Compartilhar via


O que é um assistente de voz?

Assistentes de voz que usam o serviço de Fala capacitam os desenvolvedores a criarem interfaces de conversação natural, semelhante à humana, para seus aplicativos e suas experiências. O recurso de assistente de voz fornece uma interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Escolher uma solução de assistente

A primeira etapa na criação de um assistente de voz é decidir o que você deseja que ele faça. O Serviço de Fala fornece várias soluções complementares para a criação de interações com o assistente. Talvez você queira que seu aplicativo ofereça suporte a uma conversa aberta com frases como "Preciso ir para Seattle" ou "Que tipo de pizza posso pedir?"

Arquitetura de referência para criar um assistente de voz usando o SDK de Fala

Diagrama conceitual do fluxo do serviço de orquestração do assistente de voz.

Principais recursos

Se você escolher uma palavra-chave personalizada ou outra solução para criar suas interações com o assistente, poderá usar um conjunto avançado de recursos de personalização para personalizar seu assistente de acordo com sua marca, produto e personalidade.

Categoria Recursos
Palavra-chave personalizada Os usuários podem iniciar conversas com assistentes com uma palavra-chave personalizada como "Ei, Contoso!". Um aplicativo faz isso com um mecanismo de palavra-chave personalizado no SDK de Fala, que pode ser configurado com uma palavra-chave personalizada que você pode gerar aqui. Os assistentes de voz podem usar a verificação de palavra-chave do lado do serviço para melhorar a precisão da ativação da palavra-chave (versus apenas o dispositivo).
Conversão de fala em texto Os assistentes de voz convertem áudio em tempo real em texto reconhecido usando a Conversão de fala em texto do Serviço de Fala. Esse texto está disponível, conforme transcrito, tanto para sua implementação de assistente quanto para seu aplicativo cliente.
Conversão de texto em fala As respostas textuais de seu assistente são sintetizadas usando a conversão de texto em fala do Serviço de Fala. Essa síntese é disponibilizada para seu aplicativo cliente como um fluxo de áudio. A Microsoft permite criar sua própria voz de Conversão de texto em fala neural personalizada de alta qualidade (TTS Neural) que dá voz à sua marca.

Exemplo de código e tutoriais

O código de exemplo para criar um assistente de voz está disponível no GitHub em Azure-Samples/Cognitive-Services-Voice-Assistant.

Personalização

Os assistentes de voz que você cria usando o Serviço de Fala podem usar uma variedade completa de opções de personalização.

Observação

As opções de personalização variam por idioma ou localidade. Para saber mais, consulte Idiomas com suporte.