Être efficace et naturel
[Microsoft Agent est déconseillé à partir de Windows 7 et peut être indisponible dans les versions ultérieures de Windows.]
Lors de l’accomplissement de tâches, les conversations humaines efficaces sont généralement des échanges d’informations brèves. Souvent, les éléments de la discussion sont établis entre les parties, puis référencés indirectement à l’aide de réponses abrégées. Ces formes d’abréviation sont utiles, car elles sont efficaces, et elles impliquent également que l’orateur et l’écouteur ont un contexte commun; c’est-à-dire qu’ils communiquent. L’utilisation de formes d’abréviation appropriées rend également un dialogue plus naturel.
Une forme d’abréviation conversationnelle est l’utilisation de contractions. Lorsqu’elles ne sont pas utilisées, elles font paraître un orateur plus formel et rigide, et parfois moins humain. La plupart des conversations humaines démontrent plus de liberté dans les règles linguistiques que dans le texte écrit.
Une autre forme courante d’abréviation dans les conversations est l’anaphora, l’utilisation de pronoms. Par exemple, quand quelqu’un demande : « Avez-vous vu Bill aujourd’hui ? », les réponses qui remplacent « lui » par « Bill » sont plus naturelles que de répéter le nom. La substitution est un signe que les parties du dialogue partagent un contexte commun de qui est « lui ». Gardez à l’esprit que le mot « je » fait référence au personnage lorsqu’il le dit.
Le contexte partagé est également communiqué par l’utilisation d’ellipses linguistiques, la troncation de la plupart des mots de la requête d’origine. Par exemple, l’écouteur peut répondre« Oui, je l’ai vu », illustrant le contexte partagé du moment ou même répondre par un simple « Oui » qui illustre le contexte partagé de qui et quand.
La compréhension implicite peut également être transmise par le biais d’autres formes de style conversationnel abrégé, où le contenu est déduit sans répétition, comme illustré dans l’exemple suivant :
Utilisateur: J’aimerais une pizza de style Chicago.
Personnage: Avec « Extra Cheese »?
De même, si quelqu’un dit« Il est chaud ici », l’expression est compréhensible et ne nécessite aucun autre détail si vous savez où se trouve l’orateur. Toutefois, si le contexte n’est pas bien établi ou est ambigu, l’élimination de toutes les références contextuelles peut laisser l’utilisateur confus.
Lorsque vous utilisez la communication abrégée, tenez toujours compte du contexte de l’utilisateur et du type de contenu. Il est approprié d’utiliser des descriptions plus longues pour les informations nouvelles et inconnues. Toutefois, même avec de longues informations descriptives, essayez de les diviser en segments plus petits. Cela vous permet de modifier l’animation au fur et à mesure que le personnage parle. Il offre également une plus grande possibilité à l’utilisateur d’interrompre le caractère, en particulier lors de l’utilisation d’une entrée vocale.
La cohérence est importante dans la sortie vocale. Des modèles de parole étranges ou une prosodie peuvent être interprétés comme une dégradation de l’intelligence du personnage. De même, le basculement entre le TTS et la parole enregistrée peut amener les utilisateurs à interpréter le caractère comme étrange ou possédant plusieurs personnalités. Les mouvements de la bouche synchronisée labiale peuvent améliorer l’intelligibilité de la parole. Microsoft Agent prend automatiquement en charge la synchronisation labiale pour les moteurs TTS conformes à ses interfaces SAPI requises. Toutefois, la synchronisation labiale est également prise en charge pour la parole enregistrée. Les fichiers audio peuvent également être améliorés avec l’outil d’édition de son linguistique Microsoft.