Konfigurera ljudformat och röster

Slutförd

När du syntetiserar tal kan du använda ett SpeechConfig-objekt för att anpassa ljudet som returneras av Azure AI Speech-tjänsten.

Ljudformat

Azure AI Speech-tjänsten stöder flera utdataformat för ljudströmmen som genereras av talsyntes. Beroende på dina specifika behov kan du välja ett format baserat på det som krävs:

  • Typ av ljudfil
  • Exempelfrekvens
  • Bitdjup

De format som stöds anges i SDK:n med hjälp av uppräkningen SpeechSynthesisOutputFormat . Exempel: SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm

Om du vill ange det önskade utdataformatet använder du metoden SetSpeechSynthesisOutputFormat för SpeechConfig-objektet :

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

En fullständig lista över format som stöds och deras uppräkningsvärden finns i dokumentationen för Azure AI Speech SDK.

Röster

Azure AI Speech-tjänsten innehåller flera röster som du kan använda för att anpassa dina talaktiverade program. Det finns två typer av röst som du kan använda:

  • Standardröster – syntetiska röster som skapats från ljudexempel.
  • Neurala röster – mer naturliga ljudröster som skapats med hjälp av djupa neurala nätverk.

Röster identifieras med namn som anger ett språk och en persons namn, till exempel en-GB-George.

Om du vill ange en röst för talsyntes i SpeechConfig anger du egenskapen SpeechSynthesisVoiceName till den röst som du vill använda:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Information om röster finns i Dokumentationen om Azure AI Speech SDK.