Listen、Dont Just Recognize

[アーティクル]
06/13/2023

[Microsoft エージェントは Windows 7 の時点で非推奨となり、以降のバージョンの Windows では使用できない場合があります。]

コミュニケーションの成功には、単語の認識以上のものがあります。対話のプロセスは、ターンテイクと理解を知らせるために手掛かりを交換することを意味します。文字は、頭の傾き、うなずき、シェイクなどの手掛かりを提供して、音声エンジンがリッスン状態にあり、何かが認識されたときに示すことによって、会話インターフェイスを改善できます。たとえば、Microsoft エージェントは、ユーザーがプッシュツートーク リスニングキーを 押したときにリスニング状態に割り当てられたアニメーションと、発話が検出されたときに ヒアリング 状態に割り当てられたアニメーションを再生します。独自のキャラクターを定義するときは、これらの状態に適切なアニメーションを作成して割り当てるようにしてください。文字の設計の詳細については、「 Microsoft エージェントの文字のデザイン」を参照してください。

会話には、口頭以外の手掛かりに加えて、会話者間の共通のコンテキストが含まれます。同様に、コンテキストが適切に確立されると、文字を含む音声入力シナリオが成功する可能性が高くなります。コンテキストを確立すると、"メール内のチェック" や "メールのチェック" などの類似のフレーズをより適切に解釈できます。また、アプリケーションが最後に実行したアクションなど、現在のコンテキストを再指定して応答する "ヘルプ" や "Where am I" などのコマンドを指定して、ユーザーがコンテキストに対してクエリを実行できるようにすることもできます。

Microsoft エージェントには、最適な一致と音声認識エンジンによって返される次に最適な 2 つの代替手段にアクセスできるインターフェイスが用意されています。さらに、すべての一致の信頼度スコアにアクセスできます。この情報を使用して、話された内容をより適切に判断できます。たとえば、最適な一致と最初の代替の信頼度スコアが近い場合、音声エンジンがそれらの違いを識別するのが困難であることを示している可能性があります。このような場合は、パフォーマンスを向上させるために、要求を繰り返すか言い換えるかをユーザーに依頼する必要があります。ただし、最適な一致と第 1 または第 2 の代替手段が同じコマンドを返す場合は、正しい認識の表示が強化されます。

会話や対話の性質は、話された入力に対する応答が必要であることを意味します。したがって、ユーザーの入力は、アクションが実行されたか、問題が発生したことを示す口頭または視覚的なフィードバックで常に応答するか、適切な応答を提供する必要があります。

次の方法で共有

Listen、Dont Just Recognize

フィードバック

その他のリソース