Configurar formato de áudio e vozes
Ao sintetizar fala, você pode usar um objeto SpeechConfig para personalizar o áudio retornado pelo serviço de Fala do Azure AI.
Formato de áudio
O serviço Azure AI Speech dá suporte a vários formatos de saída para o fluxo de áudio gerado pela síntese de fala. Dependendo de suas necessidades específicas, você pode escolher um formato com base no necessário:
- Tipo de ficheiro de áudio
- Taxa de amostragem
- Profundidade de bits
Os formatos suportados são indicados no SDK usando a enumeração SpeechSynthesisOutputFormat . Por exemplo, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
.
Para especificar o formato de saída necessário, use o método SetSpeechSynthesisOutputFormat do objeto SpeechConfig :
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
Para obter uma lista completa dos formatos suportados e seus valores de enumeração, consulte a documentação do SDK de Fala do Azure AI.
Vozes
O serviço Azure AI Speech fornece várias vozes que você pode usar para personalizar seus aplicativos habilitados para fala. Existem dois tipos de voz que você pode usar:
- Vozes padrão - vozes sintéticas criadas a partir de amostras de áudio.
- Vozes neurais - vozes de som mais natural criadas usando redes neurais profundas.
As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa - por exemplo en-GB-George
.
Para especificar uma voz para síntese de fala no SpeechConfig, defina sua propriedade SpeechSynthesisVoiceName como a voz que você deseja usar:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
Para obter informações sobre vozes, consulte a documentação do SDK de Fala do Azure AI.