通話で音声を再生する
Azure Communication Services Call Automation SDK で提供されている再生アクションを使用すると、通話の参加者にオーディオ プロンプトを再生できます。 このアクションには、アプリケーションのサーバー側実装を通じてアクセスできます。 通話の参加者に、次の 2 つのメソッドのいずれかを使用してオーディオを再生できます。
- Azure Communication Services に、WAV 形式の事前に録音されたオーディオ ファイルへのアクセスを提供する (Azure Communication Services は認証のサポートがある場合にアクセス可能になります)
- Azure AI サービスとの統合を通じて音声出力に変換できる通常のテキスト。
新たに発表された Azure Communication Services と Azure AI サービス間の統合を使用して、Azure テキスト読み上げが使用されたパーソナライズされた応答を再生できます。 すぐに使用できる事前構築済みの人間のようなニューラル音声を使用することも、ご自分の製品やブランドに固有のカスタム ニューラル音声を作成することもできます。 サポートされている音声、言語、ロケールについては、「音声サービスの言語と音声のサポート」を参照してください。
Note
現在、Azure Communication Services では、16 KHz で録音された 16 ビット PCM モノラル オーディオのフォーマットの ID3V2TAG 付き MP3 ファイルと WAV ファイルの 2 つのファイル形式がサポートされています。 「Audio Content Creation ツールを使用する音声合成」を使用して、独自の音声ファイルを作成できます。
事前構築されているニューラル テキスト読み上げ音声
Microsoft では、話し言葉のアクセントとイントネーションに関する従来の音声合成の限界を克服するために、ディープ ニューラル ネットワークを使用しています。 韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。 これらのニューラル音声を使用し、チャットボットや音声アシスタントでの対話をより自然で魅力的なものにできます。 100 を超える事前構築済みの音声から選択できます。 詳細については、Azure のテキスト読み上げの音声に関する説明を参照してください。
一般的なユース ケース
再生アクションはさまざまな方法で使用できます。開発者が意図する、アプリケーションでの再生アクションの使用方法の例をいくつか以下に示します。
お知らせ
アプリケーションでは、参加者が通話に参加または終了したときに何らかのお知らせを再生し、他のユーザーに通知できます。
顧客へのセルフサービスの提供
IVR と仮想アシスタントを使用するシナリオでは、アプリケーションまたはボットを使用して発信者にオーディオ プロンプトを再生できます。このプロンプトは、対話を介して発信者をガイドするメニューの形式にすることができます。
保留音
再生アクションは、発信者に対して保留音を再生するためにも使用できます。 このアクションは、エージェントが発信者に対応できるようになるまで音楽が再生され続けるよう、ループするように設定できます。
コンプライアンス メッセージの再生
さまざまな業界のコンプライアンス要件の一環として、ベンダーは、"この通話は品質目的で録音されます" など、法的またはコンプライアンスのメッセージを発信者に対して再生する必要があります。
テキスト読み上げを使用した通話でのオーディオ再生のためのサンプル アーキテクチャ
通話で音声を再生するためのサンプル アーキテクチャ
既知の制限事項
- テキスト読み上げのテキスト プロンプトでサポートされる文字数は最大 400 文字です。プロンプトがこれより長い場合は、テキスト読み上げベースの再生アクションに SSML を使用することをお勧めします。
- Speech サービスのクォータ制限を超過したシナリオの場合、こちらに記載されている手順に従って、この制限の引き上げを要求できます。
次のステップ
- ユーザーにカスタム音声プロンプトを再生する方法に関する攻略ガイドを参照してください。
- 通話の自動化によって発行される使用状況および操作ログについて学習します。
- ユーザーによる入力の収集について学習します。