了解语音识别及合成
语音识别可提取口语并将其转换为可处理的数据(通常通过将其转录为文本来实现)。 口语可以是音频文件中的录音,也可以是麦克风传出的实时音频。 语音模式在音频中经过分析,可确定映射到单词的可识别模式。 为此,软件通常使用多种模型,包括:
- 声学模型,可将音频信号转换为音素(特定声音的表示形式)。
- 语言模型,通常使用统计算法将音素映射到单词,该算法根据音素预测最可能的单词序列。
识别到的单词通常转换为文本,可用于多种用途,例如:
- 为录制的视频或实时视频提供隐藏式字幕
- 为电话呼叫或会议创建脚本
- 自动备注听写
- 确定要进一步处理的目标用户输入
语音合成涉及让数据发出声音,通常通过将文本转换为语音来实现。 语音合成解决方案通常需要以下信息:
- 要朗读的文本
- 用于读出语音的声音
若要合成语音,系统通常会对文本进行词汇切分,将其分解为单独的字词,并为每个字词指定语声。 接着将语音听录分解为韵律单元(如短语、分句或句子),以创建将被转换为音频格式的音素。 然后,这些音素合成为音频。可以向其分配特定的声音、说话速率、音调和音量。
你可以将语音合成的输出用于多种目的,包括:
- 生成对用户输入的语音回答
- 为电话系统创建语音菜单
- 在免手动场景下朗读电子邮件或短信
- 在公共场所(如火车站或机场)广播通知