次の方法で共有


音声認識

[Microsoft エージェントは Windows 7 の時点で非推奨となり、以降のバージョンの Windows では使用できない場合があります。]

音声認識は、文字と対話するための非常に自然で使い慣れたインターフェイスを提供します。 ただし、音声入力にも多くの課題があります。 音声エンジンは現在、ジェスチャ、イントネーション、顔の表現など、人間の音声通信のレパートのかなりの部分なしで動作します。 また、自然音声は通常無制限です。 スピーカーは、エンジンの現在のボキャブラリ( 文法)を超えるのは簡単です。 同様に、単語または単語の順序は、特定の要求または応答によって異なる場合があります。 また、音声認識エンジンは、多くの場合、話者の環境の大きなバリエーションに対処する必要があります。 たとえば、バックグラウンド ノイズ、マイクの品質、場所が入力品質に影響を与える可能性があります。 同様に、話者の発音が異なる場合や、話者が寒い場合など、同じスピーカーのバリエーションであっても、音響データを表現理解に変換することが困難になります。 最後に、音声エンジンは、"新しい"、"知っている"、"gnu"、"素敵なビーチを破壊する"、"音声を認識する" など、言語内の同様の音の単語やフレーズにも対処する必要があります。

音声は、常にタスクに最適な入力形式とは限りません。 音声のターンテイクの性質上、多くの場合、他の形式の入力よりも遅くなる可能性があります。 キーボードと同様に、音声入力は、何らかの種類のニーモニック表現が提供されない限り、指し示すのに適したインターフェイスです。 そのため、音声がタスクに最も適切な入力であるかどうかを常に考慮してください。 任意のタスクに対する排他的なインターフェイスとして音声を使用しないようにすることをお勧めします。 マウスやキーボードなどのメソッドを使用して、基本的な機能にアクセスする他の方法を提供します。 さらに、音声入力と、コンテキストとオプションを指定するのに役立つ視覚的な情報を組み合わせることで、ビジュアル インターフェイスで音声を使用するというマルチモーダルな性質を活用します。

最後に、音声入力の正常な使用は、テクノロジの品質の一部に過ぎません。 現在の認識テクノロジを超える人間の認識であっても、失敗することがあります。 ただし、人間のコミュニケーションでは、成功の確率を向上させ、問題が発生したときにエラー回復を提供する戦略を使用します。 したがって、音声入力の有効性は、それを提示するユーザー インターフェイスの品質にも依存します。

より自然な音声インターフェイスを設計する場合、音声対話の人間モデルを研究すると便利です。 特定のシナリオに対する実際の人間の音声対話を記録すると、使用されるコンストラクトとパターン、効果的な形式のフィードバックとエラー回復をより深く理解するのに役立つ場合があります。 使用する適切なボキャブラリを決定するのに役立ちます (入力と出力用)。 ユーザーが実際に話す方法に基づいて音声インターフェイスを設計する方が、動作するグラフィカル インターフェイスから派生させるよりも良いです。

Microsoft エージェントでは、音声認識をサポートするために Microsoft Speech API (SAPI) が使用されることに注意してください。 これにより、Microsoft エージェントをさまざまな互換性のあるエンジンで使用できます。 Microsoft エージェントでは特定の基本的なインターフェイスが指定されていますが、エンジンのパフォーマンス要件と品質は異なる場合があります。

音声は、会話インターフェイスをサポートする唯一の手段ではありません。 また、音声の代わりに、または音声に加えて、キーボード入力の自然言語処理を使用することもできます。 このような場合でも、通常は音声入力のガイドラインを適用できます。