Configurar formato de áudio e vozes

Concluído

Ao sintetizar fala, você pode usar um objeto SpeechConfig para personalizar o áudio retornado pelo serviço de Fala do Azure AI.

Formato de áudio

O serviço Azure AI Speech dá suporte a vários formatos de saída para o fluxo de áudio gerado pela síntese de fala. Dependendo de suas necessidades específicas, você pode escolher um formato com base no necessário:

  • Tipo de ficheiro de áudio
  • Taxa de amostragem
  • Profundidade de bits

Os formatos suportados são indicados no SDK usando a enumeração SpeechSynthesisOutputFormat . Por exemplo, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Para especificar o formato de saída necessário, use o método SetSpeechSynthesisOutputFormat do objeto SpeechConfig :

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Para obter uma lista completa dos formatos suportados e seus valores de enumeração, consulte a documentação do SDK de Fala do Azure AI.

Vozes

O serviço Azure AI Speech fornece várias vozes que você pode usar para personalizar seus aplicativos habilitados para fala. Existem dois tipos de voz que você pode usar:

  • Vozes padrão - vozes sintéticas criadas a partir de amostras de áudio.
  • Vozes neurais - vozes de som mais natural criadas usando redes neurais profundas.

As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa - por exemplo en-GB-George.

Para especificar uma voz para síntese de fala no SpeechConfig, defina sua propriedade SpeechSynthesisVoiceName como a voz que você deseja usar:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Para obter informações sobre vozes, consulte a documentação do SDK de Fala do Azure AI.