Audio-indeling en stemmen configureren
Wanneer u spraaksynthetiseert, kunt u een SpeechConfig-object gebruiken om de audio aan te passen die wordt geretourneerd door de Azure AI Speech-service.
Audio-indeling
De Azure AI Speech-service ondersteunt meerdere uitvoerindelingen voor de audiostream die wordt gegenereerd door spraaksynthese. Afhankelijk van uw specifieke behoeften kunt u een indeling kiezen op basis van de vereiste:
- Audiobestandstype
- Samplefrequentie
- Bitdiepte
De ondersteunde indelingen worden aangegeven in de SDK met behulp van de opsomming SpeechSynthesisOutputFormat . Bijvoorbeeld SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
.
Als u de vereiste uitvoerindeling wilt opgeven, gebruikt u de methode SetSpeechSynthesisOutputFormat van het SpeechConfig-object :
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
Zie de documentatie van de Azure AI Speech SDK voor een volledige lijst met ondersteunde indelingen en de bijbehorende opsommingswaarden.
Stemmen
De Azure AI Speech-service biedt meerdere stemmen die u kunt gebruiken om uw toepassingen met spraak te personaliseren. Er zijn twee soorten stem die u kunt gebruiken:
- Standaardstemmen: synthetische stemmen die zijn gemaakt op basis van audiovoorbeelden.
- Neurale stemmen : natuurlijkere klinkende stemmen die zijn gemaakt met behulp van diepe neurale netwerken.
Stemmen worden geïdentificeerd door namen die een landinstelling en de naam van een persoon aangeven, bijvoorbeeld en-GB-George
.
Als u een spraak wilt opgeven voor spraaksynthese in SpeechConfig, stelt u de eigenschap SpeechSynthesisVoiceName in op de stem die u wilt gebruiken:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
Zie de documentatie van de Azure AI Speech SDK voor meer informatie over stemmen.