语音识别
[Microsoft 代理从 Windows 7 开始已弃用,可能在后续版本的 Windows 中不可用。]
语音识别提供了一个非常自然且熟悉的界面,用于与字符交互。 但是,语音输入也带来了许多挑战。 语音引擎目前在没有大量人类语音通信内容(如手势、语调和面部表情)的情况下运行。 此外,自然语音通常不受限制。 说话人很容易超过引擎的当前词汇或 语法。 同样,任何给定请求或响应的措辞或词顺序可能会有所不同。 此外,语音识别引擎通常必须处理说话人环境中的巨大变化。 例如,背景噪音、麦克风质量和位置可能会影响输入质量。 同样,不同的说话人发音,甚至相同的说话人变体(例如,当说话人感冒时),使得将声学数据转换为表示性理解是一个挑战。 最后,语音引擎还必须处理语言中类似的发音字词或短语,例如“new”、“knew”和“gnu”,或者“破坏漂亮的海滩”和“识别语音”。
语音并不总是任务的最佳输入形式。 由于语音的轮次特性,它通常比其他形式的输入慢。 与键盘一样,除非提供某种类型的助记表示形式,否则语音输入对于指向的界面很差。 因此,始终考虑语音是否是任务最合适的输入。 最好避免使用语音作为任何任务的独占接口。 提供使用鼠标或键盘等方法访问任何基本功能的其他方法。 此外,通过将语音输入与有助于指定上下文和选项的视觉信息相结合,利用在视觉界面中使用语音的多模式特性。
最后,成功使用语音输入的部分原因是技术的质量。 甚至人类识别(超过任何当前识别技术)有时也会失败。 但是,在人类沟通中,我们使用的策略可以提高成功概率,并在出现问题时提供错误恢复。 因此,语音输入的有效性还取决于呈现语音输入的用户界面的质量。
在设计更自然的语音接口时,研究语音交互的人类模型可能很有用。 针对特定场景录制实际的人工语音对话有助于更好地了解使用的构造和模式以及反馈和错误恢复的有效形式。 它可以帮助确定将 (用于输入和输出) 的适当词汇。 最好根据用户的实际说话方式设计语音界面,而不是简单地从其操作的图形界面派生语音界面。
请注意,Microsoft 代理使用 Microsoft 语音 API (SAPI) 来支持语音识别。 这使 Microsoft 代理能够与各种兼容的引擎一起使用。 尽管 Microsoft 代理指定了某些基本接口,但引擎的性能要求和质量可能会有所不同。
语音不是支持对话接口的唯一方法。 还可以使用键盘输入的自然语言处理来代替或除语音之外。 在这些情况下,通常仍可应用语音输入指南。