Partilhar via


O que é fala para texto?

O serviço Azure AI Speech oferece recursos avançados de fala para texto. Este recurso suporta transcrição em tempo real e em lote, fornecendo soluções versáteis para converter fluxos de áudio em texto.

Principais recursos

O serviço de conversão de voz em texto oferece os seguintes recursos principais:

  • Transcrição em tempo real: Transcrição instantânea com resultados intermediários para entradas de áudio ao vivo.
  • Transcrição rápida: saída síncrona mais rápida para situações com latência previsível.
  • Transcrição em lote: Processamento eficiente para grandes volumes de áudio pré-gravado.
  • Fala personalizada: modelos com precisão aprimorada para domínios e condições específicos.

Conversão de voz em texto em tempo real

A conversão de voz em texto em tempo real transcreve o áudio à medida que é reconhecido a partir de um microfone ou ficheiro. É ideal para aplicações que exigem transcrição imediata, tais como:

  • Transcrições, legendas ou legendas para reuniões ao vivo: transcrição de áudio em tempo real para acessibilidade e manutenção de registros.
  • Diarização: Identificação e distinção entre diferentes alto-falantes no áudio.
  • Avaliação da pronúncia: Avaliar e fornecer feedback sobre a precisão da pronúncia.
  • Agentes de call center ajudam: Fornecendo transcrição em tempo real para ajudar os representantes de atendimento ao cliente.
  • Ditado: Transcrever palavras faladas em texto escrito para fins de documentação.
  • Agentes de voz: Permitir que sistemas interativos de resposta de voz transcrevam consultas e comandos do usuário.

A conversão de fala em texto em tempo real pode ser acessada por meio do SDK de fala, CLI de fala e API REST, permitindo a integração em vários aplicativos e fluxos de trabalho. A conversão de fala em texto em tempo real está disponível por meio do SDK de fala, da CLI de fala e das APIs REST, como a API de transcrição rápida.

Transcrição rápida

A API de transcrição rápida é usada para transcrever arquivos de áudio com resultados de retorno de forma síncrona e mais rápida do que o áudio em tempo real. Use a transcrição rápida nos cenários em que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como:

  • Transcrição rápida de áudio ou vídeo e legendas: obtenha rapidamente uma transcrição de um arquivo de vídeo ou áudio inteiro de uma só vez.
  • Tradução de vídeo: obtenha imediatamente novas legendas para um vídeo se tiver áudio em diferentes idiomas.

Para começar a usar a transcrição rápida, consulte Usar a API de transcrição rápida.

API de transcrição em lote

A transcrição em lote é projetada para transcrever grandes quantidades de áudio armazenado em arquivos. Este método processa áudio de forma assíncrona e é adequado para:

  • Transcrições, legendas ou legendas para áudio pré-gravado: conversão de conteúdo de áudio armazenado em texto.
  • Análise pós-chamada do contact center: análise de chamadas gravadas para extrair informações valiosas.
  • Diarização: Diferenciação entre alto-falantes em áudio gravado.

A transcrição em lote está disponível via:

  • API REST de fala para texto: facilita o processamento em lote com a flexibilidade das chamadas RESTful. Para começar, consulte Como usar a transcrição em lote e Amostras de transcrição em lote.

  • CLI de fala: Suporta transcrição em tempo real e em lote, facilitando o gerenciamento de tarefas de transcrição. Para obter ajuda da CLI de fala com transcrições em lote, execute o seguinte comando:

    spx help batch transcription
    

Fala personalizada

Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.

Gorjeta

Um ponto de extremidade de implantação hospedado não é necessário para usar fala personalizada com a API de transcrição em lote. Você pode conservar recursos se o modelo de fala personalizado for usado apenas para transcrição em lote. Para obter mais informações, consulte Preços do serviço de fala.

Pronto para usar, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base que é treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo base é pré-treinado com dialetos e fonética representando vários domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente para cada idioma suportado é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.

A fala personalizada permite que você personalize o modelo de reconhecimento de fala para melhor atender às necessidades específicas do seu aplicativo. Isto pode ser particularmente útil para:

  • Melhorar o reconhecimento do vocabulário específico do domínio: treine o modelo com dados de texto relevantes para o seu campo.
  • Melhorar a precisão para condições de áudio específicas: use dados de áudio com transcrições de referência para refinar o modelo.

Para obter mais informações sobre fala personalizada, consulte a visão geral da fala personalizada e a documentação da API REST de fala para texto.

Para obter detalhes sobre as opções de personalização por idioma e localidade, consulte o suporte de idioma e voz para a documentação do serviço de fala.

Exemplos de uso

Aqui estão alguns exemplos práticos de como você pode utilizar a fala do Azure AI para texto:

Caso de utilização Scenario Solução
Transcrições e legendas de reuniões ao vivo Uma plataforma de eventos virtuais precisa fornecer legendas em tempo real para webinars. Integre fala em tempo real com texto usando o SDK de fala para transcrever conteúdo falado em legendas exibidas ao vivo durante o evento.
Melhoria do serviço ao cliente Um call center quer ajudar os agentes fornecendo transcrições em tempo real das chamadas dos clientes. Use fala em tempo real para texto por meio da CLI de fala para transcrever chamadas, permitindo que os agentes entendam e respondam melhor às consultas dos clientes.
Legendagem de vídeo Uma plataforma de hospedagem de vídeo quer gerar rapidamente um conjunto de legendas para um vídeo. Use a transcrição rápida para obter rapidamente um conjunto de legendas para todo o vídeo.
Ferramentas educacionais Uma plataforma de e-learning tem como objetivo fornecer transcrições para videoaulas. Aplique a transcrição em lote através da API REST de fala para texto para processar vídeos de aula pré-gravados, gerando transcrições de texto para os alunos.
Documentação sobre cuidados de saúde Um profissional de saúde precisa documentar as consultas do paciente. Use a fala em tempo real para texto para ditado, permitindo que os profissionais de saúde falem suas anotações e as transcrevam instantaneamente. Use um modelo personalizado para melhorar o reconhecimento de termos médicos específicos.
Meios de comunicação social e entretenimento Uma empresa de mídia quer criar legendas para um grande arquivo de vídeos. Use a transcrição em lote para processar os arquivos de vídeo em massa, gerando legendas precisas para cada vídeo.
Pesquisa de mercado Uma empresa de pesquisa de mercado precisa analisar o feedback dos clientes das gravações de áudio. Utilize a transcrição em lote para converter feedback de áudio em texto, permitindo uma análise mais fácil e extração de insights.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.