通話で音声を再生する

[アーティクル]
03/02/2024

Azure Communication Services Call Automation SDK で提供されている再生アクションを使用すると、通話の参加者にオーディオプロンプトを再生できます。このアクションには、アプリケーションのサーバー側実装を通じてアクセスできます。通話の参加者に、次の 2 つのメソッドのいずれかを使用してオーディオを再生できます。

Azure Communication Services に、WAV 形式の事前に録音されたオーディオファイルへのアクセスを提供する (Azure Communication Services は認証のサポートがある場合にアクセス可能になります)
Azure AI サービスとの統合を通じて音声出力に変換できる通常のテキスト。

新たに発表された Azure Communication Services と Azure AI サービス間の統合を使用して、Azure テキスト読み上げが使用されたパーソナライズされた応答を再生できます。すぐに使用できる事前構築済みの人間のようなニューラル音声を使用することも、ご自分の製品やブランドに固有のカスタムニューラル音声を作成することもできます。サポートされている音声、言語、ロケールについては、「音声サービスの言語と音声のサポート」を参照してください。

Note

現在、Azure Communication Services では、16 KHz で録音された 16 ビット PCM モノラルオーディオのフォーマットの ID3V2TAG 付き MP3 ファイルと WAV ファイルの 2 つのファイル形式がサポートされています。「Audio Content Creation ツールを使用する音声合成」を使用して、独自の音声ファイルを作成できます。

事前構築されているニューラルテキスト読み上げ音声

Microsoft では、話し言葉のアクセントとイントネーションに関する従来の音声合成の限界を克服するために、ディープニューラルネットワークを使用しています。韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。これらのニューラル音声を使用し、チャットボットや音声アシスタントでの対話をより自然で魅力的なものにできます。 100 を超える事前構築済みの音声から選択できます。詳細については、Azure のテキスト読み上げの音声に関する説明を参照してください。

一般的なユースケース

再生アクションはさまざまな方法で使用できます。開発者が意図する、アプリケーションでの再生アクションの使用方法の例をいくつか以下に示します。

お知らせ

アプリケーションでは、参加者が通話に参加または終了したときに何らかのお知らせを再生し、他のユーザーに通知できます。

顧客へのセルフサービスの提供

IVR と仮想アシスタントを使用するシナリオでは、アプリケーションまたはボットを使用して発信者にオーディオプロンプトを再生できます。このプロンプトは、対話を介して発信者をガイドするメニューの形式にすることができます。

保留音

再生アクションは、発信者に対して保留音を再生するためにも使用できます。このアクションは、エージェントが発信者に対応できるようになるまで音楽が再生され続けるよう、ループするように設定できます。

コンプライアンスメッセージの再生

さまざまな業界のコンプライアンス要件の一環として、ベンダーは、"この通話は品質目的で録音されます" など、法的またはコンプライアンスのメッセージを発信者に対して再生する必要があります。

テキスト読み上げを使用した通話でのオーディオ再生のためのサンプルアーキテクチャ

「AI を活用したプレイ」のアーキテクチャの例を示す図。