ユーザーによる入力の収集
Azure Communication Services の Call Automation Recognize アクションがリリースされたことにより、開発者は、ユーザーによる入力を認識するよう、IVR またはコンタクト センター アプリケーションを強化できるようになりました。 認識の最も一般的なシナリオの 1 つは、ユーザーに対してあるメッセージを再生し、そのアプリケーションに認識される応答をユーザーが提供するように求めて、アプリケーションがその応答を認識すると、対応するアクションを実行するというものです。 呼び出し元からの入力は、DTMF (呼び出し元デバイス上の数字を介したユーザーによる入力)、音声、または DTMF と音声の両方の組み合わせなど、いくつかの方法で受信することができます。
音声テキスト変換による音声認識
Azure Communication Services と Azure AI サービスの統合により、Recognize アクションを経由してリアルタイムでオーディオを分析し、音声をテキストに文字起こしすることができます。 Microsoft が所有するデータを使用してトレーニングされ、かつ一般的に使用される音声言語が反映された基本モデルとして、Microsoft はすぐに使用できるユニバーサル言語モデルを活用します。 このモデルは、さまざまな一般的なドメインを表す方言と発音を使用して事前トレーニングされています。 サポートされている言語について詳しくは、「音声サービスの言語と音声のサポート」をご参照ください。
DTMF
デュアルトーン マルチ周波数 (DTMF) 認識は、番号が押された際に電話によって生成される音調/音声を解釈するプロセスです。 受信側の機器は、特定のトーンをリッスンし、それらをコマンドに変換します。 これらのコマンドは、通常、IVR シナリオでメニューを移動するときにユーザーの意図を通知します。場合によっては、ユーザーが電話のキーパッドを介して提供する必要がある重要な情報をキャプチャするために使用できます。
DTMF イベントとそれに関連するトーン
Event | 調子 |
---|---|
0 | 0 |
1 | 1 つ |
2 | 2 つ |
3 | 3 |
4 | 4 |
5 | 5 |
6 | 6 |
7 | 7 |
8 | 8 |
9 | 9 |
A | A |
B | B |
C | C |
D | D |
* | アスタリスク |
# | ポンド |
一般的なユース ケース
Recognize アクションはさまざまな理由で使用することができます。開発者がアプリケーション内で Recognize アクションを使用する方法の例をいくつか次に示します。
セルフサービス プロンプトを使用してユーザー体験を改善する
- ユーザーは呼び出しを制御できます。入力認識を有効にすると、呼び出し元は IVR メニューを移動し、クエリの解決に使用できる情報を提供できます。
- ユーザー情報の収集 - 入力認識を有効にすると、アプリケーションは呼び出し元からの入力を収集できます。 アカウント番号、クレジット カード情報などの情報を指定できます。
- 呼び出し元の応答を文字起こしする - 音声認識を使用すると、ユーザーによる入力を収集し、音声をテキストに文字起こしする、およびそれを分析して特定のビジネス アクションを実行することができます。
オーディオ プロンプトを中断する
ユーザーは IVR メニューを終了して人間のエージェントと話すことができます - DTMF の中断により、アプリケーションはユーザーが IVR メニューのフローを中断し、人間のエージェントとチャットできるようになります。
通話内で音声認識を使用して、ユーザーによる入力を収集するサンプル アーキテクチャ
呼び出しでユーザー入力を収集するためのサンプル アーキテクチャ
既知の制限事項
- 帯域内 DTMF はサポートされていないため、代わりに RFC 2833 DTMF を使用してください。
- テキスト読み上げのテキスト プロンプトでサポートされる文字数は最大 400 文字です。プロンプトがこれより長い場合は、テキスト読み上げベースの再生アクションに SSML を使用することをお勧めします。
- Speech サービスのクォータ制限を超過したシナリオの場合、こちらに記載されている手順に従って、この制限の引き上げを要求できます。