Поделиться через


Распознавание речи

[Агент Майкрософт не рекомендуется использовать в Windows 7 и может быть недоступен в последующих версиях Windows.]

Распознавание речи предоставляет очень естественный и знакомый интерфейс для взаимодействия с символами. Однако речевой ввод также представляет множество проблем. Речевые механизмы в настоящее время работают без существенных частей речевого общения человека, таких как жесты, интонация и мимика. Кроме того, естественная речь, как правило, не имеет ограничений. Говорящему легко превысить текущий словарь ( грамматику) подсистемы. Аналогичным образом, формулировка или порядок слов могут отличаться для любого конкретного запроса или ответа. Кроме того, механизмы распознавания речи часто должны иметь дело с большими различиями в среде говорящего. Например, фоновый шум, качество микрофона и расположение могут повлиять на качество ввода. Аналогичным образом, различные произношения говорящего или даже варианты одного и того же говорящего, например, когда он остыл, делают преобразование акустических данных в представление осмысления. Наконец, речевые механизмы также должны иметь дело с похожими звучающими словами или фразами на языке, такими как "новый", "знал" и "гну", или "разрушить хороший пляж" и "распознать речь".

Речь не всегда является лучшей формой ввода для задачи. Из-за поворотного характера речи она часто может быть медленнее, чем другие формы ввода. Как и клавиатура, речевой ввод является плохим интерфейсом для указания, если не предоставлен какой-то тип мнемонического представления. Поэтому всегда учитывайте, является ли речь наиболее подходящим вводом для задачи. Рекомендуется избегать использования речи в качестве эксклюзивного интерфейса для любой задачи. Предоставьте другие способы доступа к любой базовой функциональности с помощью таких методов, как мышь или клавиатура. Кроме того, воспользуйтесь преимуществами мультимодального характера использования речи в визуальном интерфейсе, объединяя ввод речи с визуальной информацией, которая помогает указать контекст и параметры.

Наконец, успешное использование речевых данных лишь отчасти связано с качеством технологии. Даже распознавание человека, которое превышает любую текущую технологию распознавания, иногда терпит неудачу. Тем не менее, в человеческом общении мы используем стратегии, которые повышают вероятность успеха и обеспечивают восстановление ошибок, когда что-то пойдет не так. Поэтому эффективность речевого ввода также зависит от качества пользовательского интерфейса, который его представляет.

Изучение человеческих моделей взаимодействия с речью может быть полезно при разработке более естественных речевых интерфейсов. Запись реальных диалогов человеческой речи для конкретных сценариев может помочь вам лучше понять используемые конструкции и шаблоны, а также эффективные формы обратной связи и восстановления ошибок. Он может помочь определить подходящий словарь для использования (для входных и выходных данных). Лучше спроектировать речевой интерфейс на основе того, как люди на самом деле говорят, чем просто извлекать его из графического интерфейса, в котором он работает.

Обратите внимание, что Microsoft Agent использует API распознавания речи (SAPI) для поддержки распознавания речи. Это позволяет использовать Microsoft Agent с различными совместимыми подсистемами. Хотя Microsoft Agent определяет некоторые базовые интерфейсы, требования к производительности и качеству подсистемы могут отличаться.

Речь не является единственным средством поддержки диалоговых интерфейсов. Вы также можете использовать обработку ввода с клавиатуры на естественном языке вместо или в дополнение к речи. В таких ситуациях вы по-прежнему можете применять рекомендации по вводу речи.