Reconnaissance vocale

Article
06/12/2023

[Microsoft Agent est déconseillé à partir de Windows 7 et peut être indisponible dans les versions ultérieures de Windows.]

La reconnaissance vocale fournit une interface très naturelle et familière pour interagir avec des caractères. Toutefois, la saisie vocale présente également de nombreux défis. Les moteurs vocaux fonctionnent actuellement sans une partie importante du répertoire de communication vocale humaine, comme les gestes, l’intonation et les expressions faciales. En outre, la parole naturelle est généralement sans limite. Il est facile pour l’orateur de dépasser le vocabulaire actuel, ou la grammaire, du moteur. De même, le libellé ou l’ordre des mots peuvent varier pour une demande ou une réponse donnée. En outre, les moteurs de reconnaissance vocale doivent souvent faire face à de grandes variations dans l’environnement de l’orateur. Par exemple, le bruit de fond, la qualité du microphone et l’emplacement peuvent affecter la qualité des entrées. De même, les différentes prononciations de l’orateur ou même les variations du même orateur, par exemple lorsque l’orateur a un froid, rendent difficile la conversion des données acoustiques en compréhension représentationnelle. Enfin, les moteurs vocaux doivent également traiter des mots ou expressions similaires dans une langue, comme « nouveau », « connu » et « gnu », ou « détruire une plage agréable » et « reconnaître la parole ».

La reconnaissance vocale n’est pas toujours la meilleure forme d’entrée pour une tâche. En raison de la nature tournure de la parole, elle peut souvent être plus lente que d’autres formes d’entrée. Comme le clavier, l’entrée vocale est une interface médiocre pour pointer, sauf si un type de représentation mnémonique est fourni. Par conséquent, déterminez toujours si la parole est l’entrée la plus appropriée pour une tâche. Il est préférable d’éviter d’utiliser la reconnaissance vocale comme interface exclusive pour n’importe quelle tâche. Fournissez d’autres façons d’accéder aux fonctionnalités de base à l’aide de méthodes telles que la souris ou le clavier. En outre, tirez parti de la nature multimodèle de l’utilisation de la parole dans l’interface visuelle en combinant l’entrée vocale avec des informations visuelles qui permettent de spécifier le contexte et les options.

Enfin, l’utilisation réussie de l’entrée vocale n’est due qu’en partie à la qualité de la technologie. Même la reconnaissance humaine, qui dépasse toute technologie de reconnaissance actuelle, échoue parfois. Toutefois, dans la communication humaine, nous utilisons des stratégies qui améliorent la probabilité de réussite et qui fournissent une récupération d’erreur en cas de problème. Par conséquent, l’efficacité de la saisie vocale dépend également de la qualité de l’interface utilisateur qui la présente.

L’étude des modèles humains d’interaction vocale peut être utile lors de la conception d’interfaces vocales plus naturelles. L’enregistrement de dialogues vocaux humains réels pour des scénarios particuliers peut vous aider à mieux comprendre les constructions et les modèles utilisés, ainsi que les formes efficaces de commentaires et de récupération d’erreurs. Il peut aider à déterminer le vocabulaire approprié à utiliser (pour l’entrée et la sortie). Il est préférable de concevoir une interface vocale en fonction de la façon dont les gens parlent réellement plutôt que de la dériver simplement de l’interface graphique dans laquelle elle fonctionne.

Notez que Microsoft Agent utilise l’API Microsoft Speech (SAPI) pour prendre en charge la reconnaissance vocale. Cela permet à Microsoft Agent d’être utilisé avec divers moteurs compatibles. Bien que Microsoft Agent spécifie certaines interfaces de base, les exigences de performances et la qualité d’un moteur peuvent varier.

La reconnaissance vocale n’est pas le seul moyen de prendre en charge les interfaces conversationnelles. Vous pouvez également utiliser le traitement en langage naturel de l’entrée du clavier à la place de ou en plus de la voix. Dans ces situations, vous pouvez toujours appliquer des instructions générales pour la saisie vocale.

Partager via

Reconnaissance vocale

Commentaires

Ressources supplémentaires