Configurar formato de áudio e vozes

3 minutos

Ao sintetizar fala, você pode usar um objeto SpeechConfig para personalizar o áudio retornado pelo serviço de Fala do Azure AI.

Formato de áudio

O serviço Azure AI Speech dá suporte a vários formatos de saída para o fluxo de áudio gerado pela síntese de fala. Dependendo de suas necessidades específicas, você pode escolher um formato com base no necessário:

Tipo de ficheiro de áudio
Taxa de amostragem
Profundidade de bits

Os formatos suportados são indicados no SDK usando a enumeração SpeechSynthesisOutputFormat . Por exemplo, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Para especificar o formato de saída necessário, use o método SetSpeechSynthesisOutputFormat do objeto SpeechConfig :

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Para obter uma lista completa dos formatos suportados e seus valores de enumeração, consulte a documentação do SDK de Fala do Azure AI.

Vozes

O serviço Azure AI Speech fornece várias vozes que você pode usar para personalizar seus aplicativos habilitados para fala. Existem dois tipos de voz que você pode usar:

Vozes padrão - vozes sintéticas criadas a partir de amostras de áudio.
Vozes neurais - vozes de som mais natural criadas usando redes neurais profundas.

As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa - por exemplo en-GB-George.

Para especificar uma voz para síntese de fala no SpeechConfig, defina sua propriedade SpeechSynthesisVoiceName como a voz que você deseja usar:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Para obter informações sobre vozes, consulte a documentação do SDK de Fala do Azure AI.

Configurar formato de áudio e vozes

Formato de áudio

Vozes

Comentários