効率的で自然なものにする
[Microsoft エージェントは Windows 7 の時点で非推奨となり、以降のバージョンの Windows では使用できない場合があります。]
タスクを実行する場合、効果的な人間の会話は通常、簡単な情報の交換です。 多くの場合、ディスカッション内の要素は当事者間で確立され、省略された応答を使用して間接的に参照されます。 これらの省略形は効率的であり、話者とリスナーが共通のコンテキストを持っていることを意味するため、有益です。つまり、通信しているということです。 適切な形の省略形を使用すると、対話がより自然になります。
会話の省略形の 1 つの形式は、縮小の使用です。 彼らは使用されていないとき、彼らは話者をより正式で堅く見せ、時には人間を減らします。 ほとんどの人間の会話では、書かれたテキストよりも言語ルールの自由度が高くなります。
会話の略語のもう 1 つの一般的な形式は、代名詞の使用 であるアナフォラです。 たとえば、誰かが「今日ビルを見たことがありますか」と尋ねると、"彼" を "Bill" に置き換える応答は、名前をもう一度繰り返すよりも自然です。 この交代は、対話の当事者が「彼」が 誰であるか の共通の文脈を共有する手掛かりです。 "I" という単語は、彼または彼女が言うときの文字を指します。
共有コンテキストは、言語的 省略記号を使用して伝達されます。これは、元のクエリの多くの単語の切り捨てです。 たとえば、リスナーは "はい、彼を見ました" と応答し、誰といつの共有コンテキストを示す単純な "はい" で応答する場合の共有コンテキストを示します。
暗黙的な理解は、次の例に示すように、他の形式の省略形の会話スタイルを通じて伝達することもできます。ここで、コンテンツは繰り返しなしで推論されます。
ユーザー: シカゴ風のピザをお願いします。
文字: 「エクストラチーズ」では?
同様に、誰かが「ここで暑い」と言った場合、フレーズは理解可能であり、話者がどこにいるか知っていれば、それ以上の詳細は必要ありません。 ただし、コンテキストが適切に確立されていない場合やあいまいな場合は、すべてのコンテキスト参照を排除すると、ユーザーが混乱する可能性があります。
短縮通信を使用する場合は、常にユーザーのコンテキストとコンテンツの種類を考慮してください。 新しくなじみのない情報には、長い説明を使用するのが適切です。 ただし、長い説明情報であっても、小さなチャンクに分割してみてください。 これにより、キャラクターが話すときにアニメーションを変更できます。 また、特に音声入力を使用する場合に、ユーザーが文字を中断する機会も大きくなります。
音声出力では一貫性が重要です。 奇妙な音声パターンやプロソディは、文字のインテリジェンスをダウングレードすると解釈される場合があります。 同様に、TTS と録音された音声を切り替えると、ユーザーはキャラクターを奇妙なものとして解釈したり、複数の個性を持ったりする可能性があります。 口の動きをリップ同期すると、音声の明瞭度が向上します。 Microsoft エージェントは、必要な SAPI インターフェイスに準拠する TTS エンジンのリップ同期を自動的にサポートします。 ただし、リップ同期は、録音された音声でもサポートされています。 サウンド ファイルは、Microsoft 言語サウンド編集ツールを使用して拡張することもできます。