音声ストリーミングの概要 - オーディオ サブスクリプション
重要
この記事で説明されている機能は、現在パブリック プレビュー段階にあります。 このプレビュー バージョンはサービス レベル アグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。
Azure Communication Services には双方向オーディオ ストリーミング機能が用意されており、アクティブな呼び出し中にオーディオ コンテンツをキャプチャ、分析、処理するための強力なツールを開発者に提供します。 この開発は、開発者と企業の両方にとって、リアルタイムのコミュニケーションにおける新しい可能性の道を開くものです。
双方向オーディオ ストリーミングを Azure OpenAI やその他のリアルタイム音声 API などのサービスと統合することで、企業はシームレスで待機時間の短い通信を実現できます。 これにより、会話型 AI ソリューションの開発とデプロイが大幅に強化され、より魅力的で効率的な対話が可能になります。
双方向ストリーミングを使用すると、企業は音声ソリューションを低待機時間の人間のような対話型の会話型 AI エージェントに昇格できるようになりました。 双方向ストリーミング API を使用すると、開発者は、Azure Communication Services で進行中の呼び出しから Web サーバーにリアルタイムでオーディオをストリーミングし、その通話にオーディオをストリームバックできます。 これらの機能の最初の焦点は、企業が会話型 AI エージェントを作成できるようにすることですが、他のユース ケースとしては、会話分析のための自然言語処理や、エンド ユーザーとのアクティブな対話中にエージェントにリアルタイムの分析情報や提案を提供するというようなユース ケースもあります。
このパブリック プレビューでは、開発者が Azure Communication Services から WebSocket 経由でリアルタイムのオーディオ ストリームにアクセスし、音声を通話にストリームバックする機能がサポートされています。
リアルタイム通話支援
会話型 AI ソリューションの活用: 顧客とリアルタイムで対話できる高度なカスタマー サポート仮想エージェントを開発し、迅速な対応とソリューションを提供します。
パーソナライズされたカスタマー エクスペリエンス: リアルタイム データを活用することで、企業はよりパーソナライズされた動的な顧客との対話をリアルタイムで提供でき、満足度とロイヤルティの向上につながります。
顧客の待機時間を短縮する: 大規模言語モデル (LLM) で双方向オーディオ ストリームを使用すると、顧客の最初の窓口として機能する仮想エージェントを作成でき、人間のエージェントの待機時間を短縮できます。
認証
- 生体認証 – 音声認識/照合エンジン/ツールを介して通話からオーディオを実行することで、音声ストリームを使用して音声認証を実行します。
双方向オーディオ ストリーミングを会話型 AI エージェントに使用する方法を示すサンプル アーキテクチャ
サポートされるフォーマット
混在
通話のすべての参加者の混合オーディオが含まれます。 すべてのオーディオは 1 つのストリームにフラット化されます。
ミックスされていない
通話の任意の時点で最も優勢な 4 人の話者に対して最大 4 つのチャネルをサポートする、チャネルごとの参加者ごとのオーディオが含まれます。 また、話者を特定するために使用できる participantRawID も取得されます。
追加情報
開発者は、Azure Communication Services から送信されたオーディオに関する次の情報を使用して、オーディオ パケットをアプリケーションの可聴コンテンツに変換できます。
- フレームレート: 1 秒あたり 50 フレーム
- パケット ストリーム レート: 20 ミリ秒のレート
- データ パケット サイズ: 16,000 hz の場合は 640 バイト、24,000 hz の場合は 960 バイト
- オーディオ メトリック: 16,000 hz および 24,000 hz で 16 ビット PCM モノラル
- パブリック文字列データは base64 文字列であり、生の PCM ファイルを作成するためにバイト配列に変換する必要があります。
請求
音声ストリーミングの課金方法については、「Azure Communication Services の価格」ページを参照してください。 価格は、通話カテゴリの音声ストリーミングで確認できます。
次のステップ
詳細については、「音声ストリーミングのクイックスタート」を参照してください。