了解语音识别及合成

2 分钟

语音识别可提取口语并将其转换为可处理的数据（通常通过将其转录为文本来实现）。口语可以是音频文件中的录音，也可以是麦克风传出的实时音频。语音模式在音频中经过分析，可确定映射到单词的可识别模式。为此，软件通常使用多种模型，包括：

声学模型，可将音频信号转换为音素（特定声音的表示形式）。
语言模型，通常使用统计算法将音素映射到单词，该算法根据音素预测最可能的单词序列。

识别到的单词通常转换为文本，可用于多种用途，例如：

为录制的视频或实时视频提供隐藏式字幕
为电话呼叫或会议创建脚本
自动备注听写
确定要进一步处理的目标用户输入

语音合成涉及让数据发出声音，通常通过将文本转换为语音来实现。语音合成解决方案通常需要以下信息：

要朗读的文本
用于读出语音的声音

若要合成语音，系统通常会对文本进行词汇切分，将其分解为单独的字词，并为每个字词指定语声。接着将语音听录分解为韵律单元（如短语、分句或句子），以创建将被转换为音频格式的音素。然后，这些音素合成为音频。可以向其分配特定的声音、说话速率、音调和音量。

你可以将语音合成的输出用于多种目的，包括：

生成对用户输入的语音回答
为电话系统创建语音菜单
在免手动场景下朗读电子邮件或短信
在公共场所（如火车站或机场）广播通知