总结

已完成

在本模块中,你了解了语音技术的两个关键方面:语音识别和合成。 语音识别涉及使用声学模型和语言模型将口语字词转换为数据(通常转录为文本)。 该文本可用于各种目的,如隐藏式字幕、脚本、自动笔记听写和用户输入处理。 另一方面,语音合成是关于数据发声的,通常通过将文本转换为语音的方式进行。 合成语音可用于生成口头响应、创建语音菜单、大声朗读电子邮件或文本,以及广播公告。 你还了解了 Microsoft Azure 的 AI 语音服务,该服务通过语音转文本 API 和文本转语音 API 等功能提供语音识别和合成功能。

本模块的要点是 Azure AI 语音服务的功能。 语音转文本 API 允许使用一个基于 Microsoft 训练的通用语言模型的模型将音频实时或批量转录为文本。 它可用于演示期间的实时转录,或用于存储的音频文件的批量转录。 文本转语音 API 将文本输入转换为可听见的语音,后者可以使用不同的语音、语言和区域发音进行自定义。Azure AI 语音是一种多功能工具,允许用户通过各种平台进行访问,这些平台包括:Azure AI Speech Studio、Azure AI Studio、命令行界面 (CLI)、REST API 和软件开发工具包 (SDK)。

你可以在服务文档中找到 Azure AI 语音的相关详细信息。