Разъяснение и ограничение выбора
[Microsoft Agent является нерекомендуемым начиная с Windows 7 и может быть недоступен в последующих версиях Windows.]
Распознавание речи становится более успешным, когда пользователь изучает соответствующий диапазон грамматики. Он также работает лучше, если диапазон вариантов ограничен. Чем меньше открытых входных данных, тем лучше речевой механизм может анализировать входные данные акустической информации.
Microsoft Agent включает несколько встроенных положений, которые повышают успешность речевого ввода. Во-первых, окно команд отображается, когда пользователь говорит" "Открыть окно команд" или "Что я могу сказать?" (или когда пользователь выбирает Открыть окно команд во всплывающем меню символа). Командное окно служит визуальным руководством по активной грамматике подсистемы речи. Это также сокращает количество ошибок распознавания, активируя только грамматику речи приложения, активного для ввода, и глобальные команды Агента Майкрософт. Таким образом, активная грамматика подсистемы распознавания речи применяется к непосредственному контексту. Дополнительные сведения о окне "Команды" см. в статье Обзор интерфейса программирования агента Майкрософт.
При создании голосовых команд агента Microsoft Agent можно создать подпись текст, который отображается в окне "Команды", а также его голосовый текст (грамматика), слова, которые подсистема должна использовать для сопоставления этой команды. Всегда старайтесь сделать команды как можно более отличительными. Чем больше разница между формулировками команд, особенно для голосового текста, тем больше вероятность того, что речевой механизм сможет различать произнесенные команды и обеспечивать точное соответствие. Кроме того, избегайте однословных или очень коротких команд. Как правило, больше акустической информации в речевых фрагментах дает движку больше шансов сделать точное совпадение.
При определении голосового текста для команды укажите разумные варианты формулировки. Запросы, которые означают одно и то же, могут быть выражены по-разному, как показано в следующем примере:
Добавьте пепперони.
Я хотел бы пепперони.
Не могли бы вы добавить пепперони?
Пепперони, пожалуйста.
Microsoft Agent позволяет легко указать альтернативные или необязательные слова для грамматики голоса для вашего приложения. Альтернативные слова или фразы заключаются между круглыми скобками, разделенными символом вертикальной линейчатой черты. Вы можете определить необязательные слова, заключив их в квадратные скобки. Можно также вложить альтернативные или необязательные слова. Кроме того, вы также можете использовать многоточие (...) в голосовом тексте в качестве заполнителя для любого слова. Однако слишком частое использование многоточия может затруднить для подсистемы различение различных голосовых команд. В любом случае всегда убедитесь, что голосовый текст содержит по крайней мере одно отличительное слово для каждой команды, которая не является необязательной. Как правило, это должно соответствовать слову или словам в подпись тексте, который отображается в окне "Команды".
Хотя вы можете включать символы, знаки препинания или сокращения в текст подпись, избегайте их в голосовом тексте. Многие механизмы распознавания речи не могут обрабатывать символы и сокращения или могут использовать их для задания специальных входных параметров. Кроме того, описывая цифры. Это также обеспечивает более надежную поддержку распознавания.
Вы также можете использовать запросы директив, чтобы избежать открытых входных данных. Запросы директив неявно ссылались на варианты или явно указывают их, как показано в следующих примерах:
prompt | Ознакомительная версия |
---|---|
Чего ты хочешь? | Слишком общий, открытый запрос |
Выберите стиль пиццы или ингредиент. | Хорошо, если варианты видны, но все равно общие |
Скажите "Гавайский", "Чикаго" или "Работы". | Лучше, явная директива с определенными параметрами |
Это позволяет пользователю выполнить допустимую команду. Предлагая слова или фразы, вы, скорее всего, будете возвращать ожидаемые формулировки. Чтобы избежать неестественного повторения, измените формулировку или сократите исходный текст для последующего представления, так как пользователь становится более опытным в стиле ввода. Запросы директив также можно использовать в ситуациях, когда пользователю не удается выполнить команду в течение заданного времени или не удается предоставить ожидаемую команду. Запросы директив можно предоставлять с помощью речевых выходных данных, интерфейсов приложений или и того, и другого. Ключ помогает пользователю узнать подходящие варианты.
Формулировка влияет на успешность запроса. Например, запрос "Вы хотите заказать пиццу?" может создать ответ "Да" или "Нет", но он также может создать запрос на заказ. Определите запросы, которые не будут неоднозначными или готовы принять более широкий спектр возможных ответов. Кроме того, обратите внимание на тенденцию людей имитировать слова и конструкции, которые они слышат. Его часто можно использовать для получения соответствующего ответа, как показано в следующем примере:
Пользователя: Покажи мне все сообщения от Пола.
Символ:
Это, скорее всего, вызовет полное название одной из сторон с возможным префиксом "Я имею в виду" или "Я имел в виду".
Так как символы агента Майкрософт работают в визуальном интерфейсе Microsoft Windows, вы можете использовать визуальные элементы для предоставления директивных запросов для речевого ввода. Например, можно включить жест символа в список вариантов и запросить у пользователя его выбор или отобразить их в диалоговом окне или окне сообщения. Это имеет два преимущества: он явно предлагает слова, которые пользователь должен произнести, и предоставляет альтернативный способ ответа для пользователя.
Вы также можете использовать другие режимы взаимодействия, чтобы тонко предложить пользователям соответствующую грамматику речи, как показано в следующем примере:
Пользователь: (щелкает параметр пиццы в гавайском стиле с помощью мыши)
Символ: Пицца в гавайском стиле.
Пользователь: (щелкает параметр "Дополнительный сыр" с помощью мыши)
Символ: Добавьте "Дополнительный сыр".
Еще одним важным фактором успешного голосового ввода является подсказка пользователя, когда подсистема готова к вводу, так как многие речевые подсистемы допускают только один речевой фрагмент за раз. Microsoft Agent обеспечивает поддержку этого двумя способами. Во-первых, если звуковой карта поддерживает MIDI, Microsoft Agent создает краткий тон, сигнализирует о доступности канала ввода речи. Во-вторых, в окне Прослушивание подсказки отображается соответствующий текстовый запрос, когда символ (речевой механизм) прослушивает ввод. Кроме того, этот совет показывает, что двигатель слышал.