Configurar o formato de áudio e as vozes
Ao sintetizar a voz, é possível usar um objeto SpeechConfig para personalizar o áudio retornado pelo serviço de Fala de IA do Azure.
Formato de áudio
O serviço de Fala de IA do Azure é compatível com vários formatos de saída para o fluxo de áudio gerado pela sintetização de voz. Dependendo de suas necessidades específicas, você pode escolher um formato com base na configuração necessária de:
- Tipo de arquivo de áudio
- Taxa de amostragem
- Profundidade de bits
Os formatos compatíveis são indicados no SDK usando a enumeração SpeechSynthesisOutputFormat. Por exemplo, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
.
Para especificar o formato de saída necessário, use o método SetSpeechSynthesisOutputFormat do objeto SpeechConfig:
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
Para ver uma lista completa dos formatos compatíveis e seus valores de enumeração, confira a documentação do SDK de Fala de IA do Azure.
Vozes
O serviço de Fala de IA do Azure tem várias vozes para personalizar seus aplicativos habilitados para fala. Há dois tipos de voz que você pode usar:
- Vozes padrão: vozes sintéticas criadas com base em amostras de áudio.
- Vozes neurais: vozes de som mais natural criadas usando redes neurais profundas.
As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa, por exemplo en-GB-George
.
Para especificar uma voz para a sintetização de voz no SpeechConfig, defina a propriedade SpeechSynthesisVoiceName como a voz que você deseja usar:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
Para saber mais sobre as vozes, confira a documentação do SDK de Fala de IA do Azure.