音声ストリーミングの概要 - オーディオ サブスクリプション
重要
この記事で説明されている機能は、現在パブリック プレビュー段階にあります。 このプレビュー バージョンはサービス レベル アグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。
Azure Communication Services は、アクティブな通話中にオーディオ コンテンツをキャプチャ、分析、処理するために、音声ストリームにリアルタイムでアクセスできる音声ストリーミング機能を開発者に提供します。 今日の世界では、ライブ オーディオとビデオの消費が広がっています。このコンテンツは、オンライン会議、オンライン カンファレンス、カスタマー サポートなどの形式である可能性があります。音声ストリーミング アクセスを使用することにより、開発者は、呼び出しの参加者ごとに音声ストリームをリアルタイムでキャプチャおよび分析するためのサーバー アプリケーションを構築できるようになりました。 開発者は、オーディオ ストリーミングを他のコール オートメーション アクションと組み合わせたり、独自の AI モデルを使用して音声ストリームを分析したりすることもできます。 ユース ケースには、会話分析のための NLP や、エンド ユーザーとのアクティブな対話中にエージェントにリアルタイムの分析情報と提案を提供することが含まれます。
このパブリック プレビューでは、開発者が WebSocket 経由でリアルタイムの音声ストリームにアクセスして、混合形式と混合されていない形式で通話のオーディオを分析する機能がサポートされています。
一般的なユース ケース
音声ストリームは、さまざまな方法で使用できます。 開発者がアプリケーションで音声ストリームを使用する方法の例をいくつか以下に示します。
リアルタイム通話支援
AI を利用した提案の改善 - エージェントと顧客間のアクティブな対話のリアルタイム オーディオ ストリームを使用して、通話の意図を測定し、独自の AI モデルを使用して通話を分析するアクティブな提案を通じて、エージェントが顧客にどのように優れた体験を提供できるかを確認します。
認証
生体認証 – 音声認識/照合エンジン/ツールを介して通話からオーディオを実行することで、音声ストリームを使用して音声認証を実行します。
進行中の呼び出しから音声ストリームをサブスクライブするためのサンプル アーキテクチャ - ライブ エージェント シナリオ
サポートされるフォーマット
混合形式
通話のすべての参加者の混合オーディオが含まれます。 すべてのオーディオは 1 つのストリームにフラット化されます。
ミックスされていない
通話の任意の時点で最も優勢な 4 人の話者に対して最大 4 つのチャネルをサポートする、チャネルごとの参加者ごとのオーディオが含まれます。 また、話者を特定するために使用できる participantRawID も取得します。
追加情報
次の表は、開発者がオーディオ パケットを、アプリケーションで使用できる可聴コンテンツに変換するのに役立つ情報を示しています。
- フレームレート: 1 秒あたり 50 フレーム
- パケット ストリーム レート: 20 ミリ秒のレート
- データ パケット: 64 KB
- オーディオ メトリック: 16 ビット PCM モノラル (16000 hz)
- パブリック文字列データは base64 文字列であり、生の PCM ファイルを作成するためにバイト配列に変換する必要があります。
請求
音声ストリーミングの課金方法については、「Azure Communication Services の価格」ページを参照してください。 価格は、通話カテゴリの音声ストリーミングで確認できます。
次のステップ
詳細については、「音声ストリーミングのクイックスタート」を参照してください。