Compartilhar via


Escolha uma tecnologia de geração e reconhecimento de fala de IA do Azure

Os serviços de IA do Azure ajudam os designers e desenvolvedores de cargas de trabalho a criar aplicativos inteligentes, de ponta, prontos para o mercado e responsáveis, com APIs e modelos prontos para uso, predefinidos e personalizáveis.

Este artigo aborda os serviços de IA do Azure que oferecem recursos de reconhecimento e geração de fala, como conversões de conversão de fala em texto e de texto em fala, tradução de áudio, reconhecimento de locutor, bem como suporte de leitura para pessoas com diferenças de aprendizado.

Observação

Para coletar insights sobre termos, frases ou obter uma análise contextual detalhada da linguagem falada ou escrita, consulte Escolher uma tecnologia de processamento de linguagem direcionada da IA do Azure.

Serviços

Os seguintes serviços de IA do Azure podem fornecer recursos de reconhecimento e geração de fala para sua carga de trabalho.

  • A Fala de IA do Azure fornece processamento de linguagem natural para análise de texto.

    • Use o serviço de Fala quando precisar transcrever ou traduzir falas, identificar locutores em uma conversa. Você também pode usar o serviço como uma alternativa de custo mais baixo para geração de fala com som natural para o Whisper nos modelos da OpenAI.
    • Não use o serviço de Fala para chat, sumarização de conteúdo, moderação ou orientação de usuários por meio de scripts. Em vez disso, use outros modelos para esses casos.
  • A Leitura Avançada é uma ferramenta que implementa técnicas comprovadas para melhorar a compreensão de leitura para leitores iniciantes, aprendizes de um novo idioma e pessoas com diferenças de aprendizado.

    • Use a Leitura Avançada para proporcionar uma experiência de leitura aprimorada, adaptada para aprendizes de um novo idioma ou pessoas com diferenças de aprendizado.
    • Não use a Leitura Avançada para casos de uso tradicionais de conversão de texto em fala.

Fala de IA do Azure

A Fala de IA do Azure fornece recursos de conversão de texto em fala e de fala em texto com um recurso de Fala. Você pode transcrever o reconhecimento de fala com alta precisão, produzir vozes com sonoridade natural para conversão de texto em fala, traduzir áudio falado e usar o reconhecimento de locutor durante conversas. Crie vozes personalizadas, adicione palavras específicas ao vocabulário base ou crie seus próprios modelos. Execute a Fala em qualquer lugar, seja na nuvem ou na borda em contêineres.

A Fala está disponível em vários idiomas e regiões.

Funcionalidades

A tabela a seguir fornece uma lista de recursos disponíveis no serviço de Fala de IA do Azure.

Capacidade Descrição
Transcrição em lote Transcreva uma grande quantidade de dados de áudio no armazenamento. Tanto a API REST de Reconhecimento de fala quanto a CLI de Fala oferecem suporte à transcrição em lote.
Reconhecimento de intenção Uma intenção é algo que o usuário deseja fazer: agendar um voo, conferir o clima ou fazer uma chamada. Com o reconhecimento de intenção, seus aplicativos, ferramentas e dispositivos podem determinar o que o usuário deseja iniciar ou fazer com base nas opções. Você define a intenção do usuário no reconhecimento de intenção ou no modelo de CLU (reconhecimento vocal de conversa).
Avaliação de pronúncia Avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado.
Reconhecimento de Locutor O reconhecimento de locutor pode ajudar a determinar quem está falando em um clipe de áudio. O serviço pode verificar e identificar os falantes por suas características de voz únicas, usando a biometria de voz.
Conversão de fala em texto Converte fluxos de áudio em texto em tempo real ou em lote.
Conversão de texto em fala Habilita seus aplicativos, ferramentas ou dispositivos a converter texto em fala sintetizada semelhante à humana.
Tradução de fala Oferece tradução de fala para fala e de fala em texto em vários idiomas de fluxos de áudio.
Tradução de vídeo Traduza e gere vídeos em vários idiomas automaticamente.

Casos de uso

A tabela a seguir descreve algumas das maneiras de usar a Fala de IA do Azure.

Caso de uso Capacidade de usar Descrição
Criação de conteúdo de áudio Conversão de fala em texto Você pode usar vozes neurais para tornar as interações com chatbots e assistentes de voz mais naturais e envolventes, converter textos digitais, como e-books, em audiolivros e aprimorar os sistemas de navegação automotiva.
Transcrição de call center Conversão de fala em texto Transcreva chamadas em tempo real ou processe um lote de chamadas, além de redigir informações de identificação pessoal e extrair insights como sentimento para ajudar no caso de uso de call center.
Legendas Conversão de fala em texto Sincronize as legendas com o áudio de entrada, aplique filtros de palavrões, obtenha resultados parciais, aplique personalizações e identifique os idiomas falados em cenários multilíngues.
Aprendizado de idiomas Conversão de fala em texto Forneça comentários de avaliação de pronúncia aos aprendizes de idiomas, ofereça suporte à transcrição em tempo real para conversas de aprendizado remoto e leia em voz alta materiais didáticos com vozes neurais.
Assistentes de voz Conversão de texto em fala Crie interfaces de conversação naturais e humanas para seus aplicativos e experiências. O recurso de assistente de voz oferece interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Leitura Avançada

A Leitura Avançada, parte dos serviços de IA do Azure, é uma ferramenta projetada de forma inclusiva que implementa técnicas comprovadas para melhorar a compreensão de leitura para leitores iniciantes, aprendizes de idiomas e pessoas com diferenças de aprendizado, como dislexia. Com a biblioteca de clientes da Leitura Avançada, você pode usar a mesma tecnologia usada no Microsoft Word e no Microsoft OneNote para fornecer uma ótima experiência aos usuários da carga de trabalho.

Funcionalidades

Veja a seguir uma lista de recursos que sua carga de trabalho pode usar para ajudar os usuários a atingir suas metas de compreensão de leitura.

  • Isolar o conteúdo para melhorar a legibilidade
  • Exibir imagens de palavras comuns e termos
  • Ajudar a entender partes da fala e gramática, destacando verbos, substantivos, pronomes e muito mais
  • Leia o conteúdo em voz alta, como o texto selecionado pelo usuário na interface do usuário da sua carga de trabalho
  • Traduza o conteúdo para vários idiomas em tempo real, o que ajuda a melhorar a compreensão dos leitores que estão aprendendo um novo idioma
  • Dividir as palavras em sílabas para melhorar a legibilidade ou a pronuncia de novas palavras

Próximas etapas