O que é o Speech Studio?
O Speech Studio é um conjunto de ferramentas baseadas na interface do usuário para criar e integrar recursos do serviço Azure AI Speech em seus aplicativos. Você cria projetos no Speech Studio usando uma abordagem sem código e, em seguida, faz referência a esses ativos em seus aplicativos usando o SDK de fala, a CLI de fala ou as APIs REST.
Gorjeta
Você também pode tentar falar para texto e texto para fala no portal do Azure AI Foundry sem se inscrever ou escrever qualquer código.
Cenários do Speech Studio
Explore, experimente e visualize o código de exemplo para alguns dos casos de uso comuns.
Legendagem: escolha um clipe de vídeo de exemplo para ver os resultados de legendas processados em tempo real ou offline. Saiba como sincronizar legendas com o áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues. Para obter mais informações, consulte o guia de início rápido de legendas.
Call Center: Veja uma demonstração sobre como usar os serviços de Linguagem e Fala para analisar conversas de call center. Transcreva chamadas em tempo real ou processe um lote de chamadas, retire informações de identificação pessoal e extraia informações, como sentimento, para ajudar no caso de uso do seu call center. Para obter mais informações, consulte o início rápido do call center.
Para uma demonstração desses cenários no Speech Studio, veja este vídeo introdutório.
Recursos do Speech Studio
No Speech Studio, os seguintes recursos do serviço de Fala estão disponíveis como tipos de projeto:
Conversão de voz em texto em tempo real: teste rapidamente a conversão de voz em texto arrastando ficheiros de áudio para aqui sem ter de utilizar qualquer código. O Speech Studio tem uma ferramenta de demonstração para ver como a conversão de fala em texto funciona em suas amostras de áudio. Para explorar a funcionalidade completa, consulte O que é conversão de fala em texto.
Fala em lote para texto: teste rapidamente os recursos de transcrição em lote para transcrever uma grande quantidade de áudio no armazenamento e receber resultados de forma assíncrona, Para saber mais sobre Fala em lote para texto, consulte Visão geral de fala em lote para texto.
Fala personalizada: crie modelos de reconhecimento de fala adaptados a conjuntos de vocabulário e estilos de fala específicos. Em contraste com o modelo de reconhecimento de fala básico, os modelos de fala personalizados tornam-se parte de sua vantagem competitiva exclusiva porque não são acessíveis publicamente. Para começar a carregar áudio de exemplo para criar um modelo de fala personalizado, consulte Carregar conjuntos de dados de treinamento e teste.
Avaliação da pronúncia: Avaliar a pronúncia da fala e dar feedback aos oradores sobre a precisão e fluência do áudio falado. O Speech Studio fornece uma área restrita para testar esse recurso rapidamente, sem código. Para usar o recurso com o SDK de fala em seus aplicativos, consulte o artigo Avaliação de pronúncia .
Tradução de fala: teste e traduza rapidamente a fala para outros idiomas de sua escolha com baixa latência. Para explorar a funcionalidade completa, consulte O que é tradução de fala.
Galeria de voz: crie aplicativos e serviços que falam naturalmente. Escolha entre um amplo portfólio de idiomas, vozes e variantes. Dê vida aos seus cenários com vozes neurais altamente expressivas e semelhantes às humanas.
Voz personalizada: crie vozes personalizadas e únicas para conversão de texto em fala. Você fornece arquivos de áudio e cria transcrições correspondentes no Speech Studio e, em seguida, usa as vozes personalizadas em seus aplicativos. Para criar e usar vozes personalizadas por meio de pontos de extremidade, consulte Criar e usar seu modelo de voz.
Criação de conteúdo de áudio: uma abordagem sem código para síntese de texto para fala. Você pode usar o áudio de saída como está, ou como um ponto de partida para personalização adicional. Você pode criar conteúdo de áudio altamente natural para vários cenários, como audiolivros, transmissões de notícias, narrações em vídeo e bots de bate-papo. Para obter mais informações, consulte a documentação de criação de conteúdo de áudio.
Palavra-chave personalizada: uma palavra-chave personalizada é uma palavra ou frase curta que você pode usar para ativar um produto por voz. Você cria uma palavra-chave personalizada no Speech Studio e, em seguida, gera um arquivo binário para usar com o SDK de fala em seus aplicativos.