配置音频格式和语音

已完成

合成语音时,可以使用 SpeechConfig 对象来自定义 Azure AI 语音服务返回的音频。

音频格式

对于语音合成生成的音频流,Azure AI 语音服务支持多种输出格式。 根据特定需求,可以基于以下所需项选择格式:

  • 音频文件类型
  • 采样率
  • 位深度

SDK 中使用 SpeechSynthesisOutputFormat 枚举指示支持的格式。 例如,SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm

若要指定所需输出格式,请使用 SpeechConfig 对象的 SetSpeechSynthesisOutputFormat 方法:

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

有关支持的格式及其枚举值的完整列表,请参阅 Azure AI 语音 SDK 文档

语音

Azure AI 语音服务提供多种语音,可用于对启用了语音的应用程序进行个性化设置。 可以使用两种类型的语音:

  • 标准语音 - 从音频样本创建的合成音频。
  • 神经语音 - 使用深度神经网络创建的听起来更加自然的语音。

语音由表示区域设置和人员姓名的名称进行标识,例如 en-GB-George

若要在 SpeechConfig 中为语音合成指定语音,请将其 SpeechSynthesisVoiceName 属性设置为要使用的语音:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

有关语音的信息,请参阅 Azure AI 语音 SDK 文档