O que é fala para texto?
O serviço Azure AI Speech oferece recursos avançados de fala para texto. Este recurso suporta transcrição em tempo real e em lote, fornecendo soluções versáteis para converter fluxos de áudio em texto.
Principais recursos
O serviço de conversão de voz em texto oferece os seguintes recursos principais:
- Transcrição em tempo real: Transcrição instantânea com resultados intermediários para entradas de áudio ao vivo.
- Transcrição rápida: saída síncrona mais rápida para situações com latência previsível.
- Transcrição em lote: Processamento eficiente para grandes volumes de áudio pré-gravado.
- Fala personalizada: modelos com precisão aprimorada para domínios e condições específicos.
Conversão de voz em texto em tempo real
A conversão de voz em texto em tempo real transcreve o áudio à medida que é reconhecido a partir de um microfone ou ficheiro. É ideal para aplicações que exigem transcrição imediata, tais como:
- Transcrições, legendas ou legendas para reuniões ao vivo: transcrição de áudio em tempo real para acessibilidade e manutenção de registros.
- Diarização: Identificação e distinção entre diferentes alto-falantes no áudio.
- Avaliação da pronúncia: Avaliar e fornecer feedback sobre a precisão da pronúncia.
- Agentes de call center ajudam: Fornecendo transcrição em tempo real para ajudar os representantes de atendimento ao cliente.
- Ditado: Transcrever palavras faladas em texto escrito para fins de documentação.
- Agentes de voz: Permitir que sistemas interativos de resposta de voz transcrevam consultas e comandos do usuário.
A conversão de fala em texto em tempo real pode ser acessada por meio do SDK de fala, CLI de fala e API REST, permitindo a integração em vários aplicativos e fluxos de trabalho. A conversão de fala em texto em tempo real está disponível por meio do SDK de fala, da CLI de fala e das APIs REST, como a API de transcrição rápida.
Transcrição rápida
A API de transcrição rápida é usada para transcrever arquivos de áudio com resultados de retorno de forma síncrona e mais rápida do que o áudio em tempo real. Use a transcrição rápida nos cenários em que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como:
- Transcrição rápida de áudio ou vídeo e legendas: obtenha rapidamente uma transcrição de um arquivo de vídeo ou áudio inteiro de uma só vez.
- Tradução de vídeo: obtenha imediatamente novas legendas para um vídeo se tiver áudio em diferentes idiomas.
Para começar a usar a transcrição rápida, consulte Usar a API de transcrição rápida.
API de transcrição em lote
A transcrição em lote é projetada para transcrever grandes quantidades de áudio armazenado em arquivos. Este método processa áudio de forma assíncrona e é adequado para:
- Transcrições, legendas ou legendas para áudio pré-gravado: conversão de conteúdo de áudio armazenado em texto.
- Análise pós-chamada do contact center: análise de chamadas gravadas para extrair informações valiosas.
- Diarização: Diferenciação entre alto-falantes em áudio gravado.
A transcrição em lote está disponível via:
API REST de fala para texto: facilita o processamento em lote com a flexibilidade das chamadas RESTful. Para começar, consulte Como usar a transcrição em lote e Amostras de transcrição em lote.
CLI de fala: Suporta transcrição em tempo real e em lote, facilitando o gerenciamento de tarefas de transcrição. Para obter ajuda da CLI de fala com transcrições em lote, execute o seguinte comando:
spx help batch transcription
Fala personalizada
Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.
Gorjeta
Um ponto de extremidade de implantação hospedado não é necessário para usar fala personalizada com a API de transcrição em lote. Você pode conservar recursos se o modelo de fala personalizado for usado apenas para transcrição em lote. Para obter mais informações, consulte Preços do serviço de fala.
Pronto para usar, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base que é treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo base é pré-treinado com dialetos e fonética representando vários domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente para cada idioma suportado é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.
A fala personalizada permite que você personalize o modelo de reconhecimento de fala para melhor atender às necessidades específicas do seu aplicativo. Isto pode ser particularmente útil para:
- Melhorar o reconhecimento do vocabulário específico do domínio: treine o modelo com dados de texto relevantes para o seu campo.
- Melhorar a precisão para condições de áudio específicas: use dados de áudio com transcrições de referência para refinar o modelo.
Para obter mais informações sobre fala personalizada, consulte a visão geral da fala personalizada e a documentação da API REST de fala para texto.
Para obter detalhes sobre as opções de personalização por idioma e localidade, consulte o suporte de idioma e voz para a documentação do serviço de fala.
Exemplos de uso
Aqui estão alguns exemplos práticos de como você pode utilizar a fala do Azure AI para texto:
Caso de utilização | Scenario | Solução |
---|---|---|
Transcrições e legendas de reuniões ao vivo | Uma plataforma de eventos virtuais precisa fornecer legendas em tempo real para webinars. | Integre fala em tempo real com texto usando o SDK de fala para transcrever conteúdo falado em legendas exibidas ao vivo durante o evento. |
Melhoria do serviço ao cliente | Um call center quer ajudar os agentes fornecendo transcrições em tempo real das chamadas dos clientes. | Use fala em tempo real para texto por meio da CLI de fala para transcrever chamadas, permitindo que os agentes entendam e respondam melhor às consultas dos clientes. |
Legendagem de vídeo | Uma plataforma de hospedagem de vídeo quer gerar rapidamente um conjunto de legendas para um vídeo. | Use a transcrição rápida para obter rapidamente um conjunto de legendas para todo o vídeo. |
Ferramentas educacionais | Uma plataforma de e-learning tem como objetivo fornecer transcrições para videoaulas. | Aplique a transcrição em lote através da API REST de fala para texto para processar vídeos de aula pré-gravados, gerando transcrições de texto para os alunos. |
Documentação sobre cuidados de saúde | Um profissional de saúde precisa documentar as consultas do paciente. | Use a fala em tempo real para texto para ditado, permitindo que os profissionais de saúde falem suas anotações e as transcrevam instantaneamente. Use um modelo personalizado para melhorar o reconhecimento de termos médicos específicos. |
Meios de comunicação social e entretenimento | Uma empresa de mídia quer criar legendas para um grande arquivo de vídeos. | Use a transcrição em lote para processar os arquivos de vídeo em massa, gerando legendas precisas para cada vídeo. |
Pesquisa de mercado | Uma empresa de pesquisa de mercado precisa analisar o feedback dos clientes das gravações de áudio. | Utilize a transcrição em lote para converter feedback de áudio em texto, permitindo uma análise mais fácil e extração de insights. |
IA responsável
Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.
- Nota de transparência e casos de uso
- Características e limitações
- Integração e utilização responsável
- Dados, privacidade e segurança
Conteúdos relacionados
- Introdução à conversão de voz em texto
- Criar uma transcrição em lote
- Para obter informações detalhadas sobre preços, visite a página de preços do serviço de fala.