配置音频格式和语音
合成语音时,可以使用 SpeechConfig 对象来自定义 Azure AI 语音服务返回的音频。
音频格式
对于语音合成生成的音频流,Azure AI 语音服务支持多种输出格式。 根据特定需求,可以基于以下所需项选择格式:
- 音频文件类型
- 采样率
- 位深度
SDK 中使用 SpeechSynthesisOutputFormat 枚举指示支持的格式。 例如,SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
。
若要指定所需输出格式,请使用 SpeechConfig 对象的 SetSpeechSynthesisOutputFormat 方法:
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
有关支持的格式及其枚举值的完整列表,请参阅 Azure AI 语音 SDK 文档。
语音
Azure AI 语音服务提供多种语音,可用于对启用了语音的应用程序进行个性化设置。 可以使用两种类型的语音:
- 标准语音 - 从音频样本创建的合成音频。
- 神经语音 - 使用深度神经网络创建的听起来更加自然的语音。
语音由表示区域设置和人员姓名的名称进行标识,例如 en-GB-George
。
若要在 SpeechConfig 中为语音合成指定语音,请将其 SpeechSynthesisVoiceName 属性设置为要使用的语音:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
有关语音的信息,请参阅 Azure AI 语音 SDK 文档。