Konfigurera ljudformat och röster
När du syntetiserar tal kan du använda ett SpeechConfig-objekt för att anpassa ljudet som returneras av Azure AI Speech-tjänsten.
Ljudformat
Azure AI Speech-tjänsten stöder flera utdataformat för ljudströmmen som genereras av talsyntes. Beroende på dina specifika behov kan du välja ett format baserat på det som krävs:
- Typ av ljudfil
- Exempelfrekvens
- Bitdjup
De format som stöds anges i SDK:n med hjälp av uppräkningen SpeechSynthesisOutputFormat . Exempel: SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
Om du vill ange det önskade utdataformatet använder du metoden SetSpeechSynthesisOutputFormat för SpeechConfig-objektet :
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
En fullständig lista över format som stöds och deras uppräkningsvärden finns i dokumentationen för Azure AI Speech SDK.
Röster
Azure AI Speech-tjänsten innehåller flera röster som du kan använda för att anpassa dina talaktiverade program. Det finns två typer av röst som du kan använda:
- Standardröster – syntetiska röster som skapats från ljudexempel.
- Neurala röster – mer naturliga ljudröster som skapats med hjälp av djupa neurala nätverk.
Röster identifieras med namn som anger ett språk och en persons namn, till exempel en-GB-George
.
Om du vill ange en röst för talsyntes i SpeechConfig anger du egenskapen SpeechSynthesisVoiceName till den röst som du vill använda:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
Information om röster finns i Dokumentationen om Azure AI Speech SDK.