オーディオ形式と音声を構成する
音声をから合成する場合、SpeechConfig オブジェクトを使用して、Azure AI 音声サービスによって返されるオーディオをカスタマイズできます。
音声の形式
Azure AI 音声サービスでは、音声合成によって生成されるオーディオ ストリームの複数の出力形式がサポートされています。 特定のニーズに応じて、必要に応じて形式を選択できます。
- オーディオ ファイルの種類
- サンプルレート
- ビット深度
サポートされている形式は、SDK で SpeechSynthesisOutputFormat 列挙型を使用して示されます。 たとえば、「 SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
」のように入力します。
必要な出力形式を指定するには、SpeechConfig オブジェクトの SetSpeechSynthesisOutputFormat メソッドを使用します。
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
サポートされている形式と列挙値の完全な一覧については、Azure AI 音声 SDK のドキュメントを参照してください。
音声
Azure AI 音声サービスには、音声対応アプリケーションをカスタマイズするために使用できる複数の音声が用意されています。 使用できる音声には、次の 2 種類があります。
- "標準音声" - オーディオ サンプルから作成される合成音声。
- "ニューラル音声" - ディープ ニューラル ネットワークを使用して作成される、より自然な発音の音声。
音声は、en-GB-George
のように、ロケールと人名を示す名前で識別します。
SpeechConfig で音声合成用の音声を指定するには、SpeechSynthesisVoiceName プロパティを、使用する音声に設定します。
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
音声の詳細については、Azure AI 音声 SDK のドキュメントを参照してください。