Поделиться через


Слушай, не просто распознай

[Microsoft Agent является нерекомендуемым начиная с Windows 7 и может быть недоступен в последующих версиях Windows.]

Для успешного общения требуется не только распознавание слов. Процесс диалога подразумевает обмен подсказками, чтобы сигнализировать о принятии и понимании. Символы могут улучшить диалоговые интерфейсы, предоставляя такие подсказки, как наклон головы, кивнуть или потрясти, чтобы указать, когда речевой механизм находится в состоянии прослушивания и когда что-то распознается. Например, Microsoft Agent воспроизводит анимации, назначенные состоянию прослушивания , когда пользователь нажимает клавишу прослушивания push-to-talk, и анимации, назначенные состоянию прослушивания при обнаружении высказывания. При определении собственного персонажа убедитесь, что вы создаете и назначаете соответствующие анимации этим состояниям. Дополнительные сведения о проектировании символов см. в статье Проектирование символов для Агента Майкрософт.

В дополнение к невербальным подсказкам, разговор включает в себя общий контекст между участниками беседы. Аналогичным образом, сценарии ввода речи с символами, скорее всего, будут успешными, если контекст хорошо установлен. Определение контекста позволяет лучше интерпретировать похожие фразы, такие как "проверка в почте" и "проверка моей почте". Вы также можете разрешить пользователю запрашивать контекст, предоставив команду, например "Help" или "Where am I", на которую вы отвечаете, переименовав текущий контекст, например последнее действие, выполненное приложением.

Microsoft Agent предоставляет интерфейсы, позволяющие получить доступ к наилучшему совпадению и двум следующим лучшим альтернативам, возвращаемым подсистемой распознавания речи. Кроме того, вы можете получить доступ к оценке достоверности для всех совпадений. Эти сведения можно использовать для лучшего определения того, что было сказано. Например, если оценки достоверности лучшего соответствия и первой альтернативы близки, это может указывать на то, что речевой подсистеме было трудно различить разницу между ними. В этом случае может потребоваться попросить пользователя повторить или перефразировать запрос, чтобы повысить производительность. Однако если лучшее совпадение и первая или вторая альтернативы возвращают одну и ту же команду, это усиливает указание на правильное распознавание.

Характер беседы или диалога подразумевает, что должен быть ответ на речевой ввод. Поэтому на входные данные пользователя всегда следует отвечать устной или визуальной обратной связью, которая указывает на то, что было выполнено действие или возникла проблема, или предоставляет соответствующий ответ.