Resumo
Neste módulo, você aprendeu sobre dois aspectos fundamentais da tecnologia de voz: reconhecimento de fala e sintetização de voz. O reconhecimento de fala envolve a conversão de palavras faladas em dados, geralmente transcritas em texto, usando um modelo acústico e um modelo de linguagem. Esse texto pode ser usado para várias finalidades, como legendas ocultas, transcrições, ditado automático de notas e processamento de entrada do usuário. A sintetização de voz, por outro lado, é sobre vocalizar dados, normalmente fazendo a conversão de texto em fala. A voz sintetizada pode ser usada para gerar respostas faladas, criar menus de voz, ler emails ou textos em voz alta e transmitir comunicados. Você também aprendeu sobre o serviço de Fala de IA do Microsoft Azure, que fornece recursos de reconhecimento de fala e sintetização de voz por meio de recursos como APIs de Conversão de Fala em Texto e de Conversão de Texto em Fala.
As principais conclusões desse módulo são as funcionalidades do serviço de Fala de IA do Azure. A API de Conversão de Fala em Texto permite a transcrição em tempo real ou em lote de áudio em texto, usando um modelo baseado no Modelo de Linguagem Universal treinado pela Microsoft. Ele pode ser usado para transcrições em tempo real durante apresentações ou demonstrações ou para transcrições em lote de arquivos de áudio armazenados. A API de Conversão de Texto em Fala converte a entrada de texto em fala audível, que pode ser personalizada com diferentes vozes, idiomas e pronúncias regionais. A Fala de IA do Azure é uma ferramenta versátil que pode ser acessada por meio de várias plataformas, como o Estúdio de Fala de IA do Azure, o Estúdio de IA do Azure, a CLI (Interface de Linha de Comando), as APIs REST e os SDKs (Software Development Kits).
Você pode saber mais sobre a fala de IA do Azure na documentação do serviço.