Konfigurieren des Audioformats und der Stimmen
Bei der Sprachsynthese können Sie ein SpeechConfig-Objekt verwenden, um die vom Azure KI Speech-Dienst zurückgegebenen Audioinhalte anzupassen.
Audioformat
Der Azure KI Speech-Dienst unterstützt mehrere Ausgabeformate für den Audiodatenstrom, der von der Sprachsynthese generiert wird. Abhängig von Ihren spezifischen Anforderungen können Sie ein Format auswählen, das auf den folgenden Anforderungen basiert:
- Audiodateityp
- Abtastrate
- Bittiefe
Die unterstützten Formate werden im SDK mit der Enumeration SpeechSynthesisOutputFormat angegeben. Beispiel: SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
.
Um das erforderliche Ausgabeformat anzugeben, verwenden Sie die SetSpeechSynthesisOutputFormat-Methode des SpeechConfig-Objekts:
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
Eine vollständige Liste der unterstützten Formate und ihrer Enumerationswerte finden Sie in der Azure KI Speech-Dokumentation.
Stimmen
Der Azure KI Speech-Dienst stellt mehrere Stimmen bereit, mit denen Sie Ihre sprachaktivierten Anwendungen personalisieren können. Es gibt zwei Arten von Stimmen, die Sie verwenden können:
- Standardstimmen: Synthetische Stimmen, die aus Audiobeispielen erstellt werden.
- Neuronale Stimmen: Natürlicher klingende Stimmen, die mit Deep Neural Networks erstellt werden.
Stimmen werden anhand von Namen identifiziert, die ein Gebietsschema und den Namen einer Person angeben, z. B. en-GB-George
.
Um eine Stimme für die Sprachsynthese in SpeechConfig anzugeben, legen Sie die SpeechSynthesisVoiceName-Eigenschaft auf die Stimme fest, die Sie verwenden möchten:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
Informationen zu Stimmen finden Sie in der Azure KI Speech-Dokumentation.